新型探索式 NLHF 演算法:以 Nash 均衡優化大型語言模型對齊
研究聚焦於大型語言模型的偏好對齊問題,指出傳統以單一獎勵最大化的方式難以處理循環或非傳遞性的人類偏好。作者提出一種結合 SFT 正則化與對抗式政策探索的顯式探索式 NLHF 演算法,保留迭代式直接政策優化的架構,同時在理論上達到 O(√T) 的遺憾界限,若使用最小最大值 oracle 可進一步降至 O(log T)。
大型語言模型的偏好對齊一直是提升模型表現的關鍵,但傳統以單一獎勵最大化的方式在面對循環或非傳遞的人類偏好時會受限。Nash Learning from Human Feedback (NLHF) 把對齊視為偏好博弈,目標是 Nash 均衡而非獎勵最大化,然而其可擴展的學習理論仍不完整。
標準迭代 NLHF 的挑戰
現有的迭代 NLHF 直接優化政策層面的偏好損失,實作較簡單,但缺乏遺憾保證。研究發現,僅靠政策更新的隱性探索會導致遺憾與 KL 正則化參數呈指數關係,顯示探索不足是主要瓶頸。
顯式探索式迭代 NLHF 演算法
為解決上述問題,作者設計了一套結合 SFT(Supervised Fine‑Tuning)正則化與對抗式政策探索的演算法。此方法保留了迭代 NLHF 的直接政策優化結構,避免了顯式估計偏好模型,同時在理論上取得 O(√T) 的遺憾上界,且不受 KL 正則化參數的指數影響。若能取得最小最大值 oracle,遺憾上界可進一步縮減至 O(log T),說明了計算與統計效能之間的權衡。
實驗驗證
研究將新演算法套用於 Llama‑3‑8B‑Instruct 的微調,並在多項基準測試上與既有 NLHF 基線比較。結果顯示,加入顯式探索的模型在所有測試中均有一致的效能提升,證實了探索策略在大型語言模型對齊中的實用性。
延伸閱讀
- LLM精神病理:揭露大型語言模型的五種認知崩解
- 大型語言模型文化偏誤審計:GPT-5.4、Claude Sonnet 4.5、Gemini 2.5 Flash 的個體主義傾向分析
- 大型自律代理人社會的集體智慧:以 MoltBook 和 Probing Agents 的三級檢測框架驗證
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。