直接偏好優化 (DPO)

深度分析

本篇改寫自 ArXiv 提案，指出直接偏好優化（DPO）在用大型語言模型做推薦偏好對齊時，容易放大訓練資料中來自情境性環境共變因子的虛假相關，進而削弱對未見環境的泛化能力。