深度分析 CausalDPO:以因果不變性修正 DPO,提升生成式推薦對分布偏移的穩健性 本篇改寫自 ArXiv 提案,指出直接偏好優化(DPO)在用大型語言模型做推薦偏好對齊時,容易放大訓練資料中來自情境性環境共變因子的虛假相關,進而削弱對未見環境的泛化能力。