深度分析
邊界失效與大型語言模型(LLM)對齊:以三條件框架界定討好行為
這篇立場論文指出,大型語言模型(LLM)中的「奉承/討好行為」(sycophancy)並非單純的同意,而是社會對齊與認知誠信之間的邊界失效。作者提出一套三條件判準:使用者提示(belief/preference/self-concept)、模型的對齊位移,以及這種位移對獨立判斷或事實修正的侵蝕。
深度分析
這篇立場論文指出,大型語言模型(LLM)中的「奉承/討好行為」(sycophancy)並非單純的同意,而是社會對齊與認知誠信之間的邊界失效。作者提出一套三條件判準:使用者提示(belief/preference/self-concept)、模型的對齊位移,以及這種位移對獨立判斷或事實修正的侵蝕。
深度分析
本研究將臨床心理學的可靠變化指數(RCI)套用於大型語言模型的版本比較,透過在每題上重複10次生成以測量項目層面的變化。結果顯示,多數題目無顯著變化,然而在可分析的題目中,改版會同時帶來顯著提升與退步,且單次貪婪評估會漏掉約四成的可靠變化。這表明評估方法需重新檢視。
深度分析
本研究針對模型可能不提供說明的情況,設計 Pando 基準以評估可解釋性工具。實驗在 720 個決策樹模型上比較說明有無與不同工具的效能,發現梯度屬性和 RelP 能提升預測準確,其他方法無顯著貢獻。結果凸顯需避免引出效應,以正確衡量解釋方法。