後訓練讓大型語言模型變得不那麼「像人」:Psych-201 行為對齊研究
研究指出,為了把基礎模型變成實用助理的後訓練過程,會普遍降低模型與人類行為的一致性。作者建構Psych-201資料集,橫向比較不同家族與尺寸的模型,發現後訓練後的偏離更大;用以模擬個體的角色條件化也無法改善個體層級的預測。且在更新世代中,儘管基礎模型持續改進,這種偏離仍擴大。
要點速覽
最新研究以 Psych-201 資料集,系統性衡量大型語言模型與人類行為的一致性。結果顯示,把基礎模型透過後訓練調校成為助理的流程,會在多數情況下降低模型的「像人」程度,跨家族、跨尺寸、跨訓練目標皆觀察到類似趨勢。
研究指出,雖然基礎模型在某些指標上持續進步,但在後訓練後的更新世代中,模型與人類行為的偏離反而擴大。團隊也測試了常用的角色條件化(persona-induction)做法,結果並未在個體層級提升預測準確度。
綜合來看,將 LLM 打造成實用助理的常規步驟,可能會削弱其作為人類行為代理的精準性。此發現對把模型用於行為研究、心理學模擬或以人類為基準的系統評估,提出重要反思與後續研究方向。
延伸閱讀
- EmoDistill:以離線蒸餾結合 IQL、LoRA‑SFT 與 JPO 將情緒建為談判技能
- BC Protocol:雙專家語音對話採集高品質 CoT(思路鏈)資料的方法
- 以 DRIFT-Bench 分解矛盾與可滿足漂移:MUS-Repair 對多回合約束推理的修復評估
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。