速報
HiPO:以層級偏好優化把DPO應用到多步推理
背景:DPO能學習偏好但難給多步推理段落回饋。方法:HiPO把回應拆成查詢與背景、推理步驟、答案三段,對各段分別計算並加權DPO損失。結果:在Math Stack Exchange偏好資料上微調多款7B模型後,HiPO在數學基準上優於DPO且展現更佳組織與邏輯一致性。
速報
背景:DPO能學習偏好但難給多步推理段落回饋。方法:HiPO把回應拆成查詢與背景、推理步驟、答案三段,對各段分別計算並加權DPO損失。結果:在Math Stack Exchange偏好資料上微調多款7B模型後,HiPO在數學基準上優於DPO且展現更佳組織與邏輯一致性。
深度分析
研究針對大型語言模型在具身任務的世界建模不足,提出以 UML 為基礎的物件導向世界模型 (OOWM)。透過類別圖與活動圖將感知與規劃結構化,並結合三階段訓練與結果導向強化學習。實驗顯示在 MRoom-30k 基準上提升規劃一致性與執行成功率。