HiPO:以層級偏好優化把DPO應用到多步推理
背景:DPO能學習偏好但難給多步推理段落回饋。方法:HiPO把回應拆成查詢與背景、推理步驟、答案三段,對各段分別計算並加權DPO損失。結果:在Math Stack Exchange偏好資料上微調多款7B模型後,HiPO在數學基準上優於DPO且展現更佳組織與邏輯一致性。
重點速報
研究指出,Direct Preference Optimization(DPO)在對整體回應學習人類偏好時穩定,但面對需要多步推理的問題,缺乏對子段落的細緻回饋,難以優化推理流程。為此,作者提出 HiPO(Hierarchical Preference Optimization)。
方法概述
HiPO 將模型產生的回答拆成三個段落:查詢與背景(query clarification and context)、推理步驟(reasoning steps)與最終答案(answer)。對每個段落分別計算 DPO 損失,並以預設權重將各段損失加總作為總體優化目標。此設計讓模型能針對各段落提供更細緻的偏好學習,同時保留 DPO 本身在計算與訓練穩定性的優點。
實驗與結果
研究以 Math Stack Exchange 的偏好資料集為微調基礎,對多款 7B 大型語言模型進行 HiPO 與傳統 DPO 的比較。評估結果指出,使用 HiPO 訓練的模型在多項常見數學基準上表現更佳;由 GPT-4.1 評估的面向則顯示,HiPO 提升了模型答案的組織性、邏輯流程與一致性。
意義與延伸
這項工作示範把偏好學習與結構化推理結合的可行路徑。透過分段損失設計,能在不犧牲 DPO 穩定性的前提下,針對推理過程的不同階段進行專門優化,對需要多步邏輯推演的應用場景,具實務價值。
延伸閱讀
- Cyber Defense Benchmark:LLM 在 SOC 威脅獵捕上的挫敗
- 將 LLM 應用於自動化 streamliner:對 ASP(Clingo)編碼的約束生成與驗證
- DP-FLogTinyLLM:結合差分隱私的聯邦化微型LLM日誌異常檢測
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。