行為對齊

深度分析

隨著大型語言模型被廣泛測試，其自我報告問卷呈現高度穩定性；研究團隊以探索性因素分析從模型行為出發建構300題測驗，萃取出回應性、順從性、大膽性、謹慎性與冗長性五因子；結果顯示除冗長性外，這些自評分數無法預測人類評估的實際行為，對以自我報告作為對齊驗證的管線構成風險。

速報

研究指出，為了把基礎模型變成實用助理的後訓練過程，會普遍降低模型與人類行為的一致性。作者建構Psych-201資料集，橫向比較不同家族與尺寸的模型，發現後訓練後的偏離更大；用以模擬個體的角色條件化也無法改善個體層級的預測。且在更新世代中，儘管基礎模型持續改進，這種偏離仍擴大。