深度分析 語言化假設框架:降低大型語言模型社交阿諛行為的可解釋控制方法 大型語言模型在回應使用者時常出現社交阿諛,研究提出語言化假設框架以抽取模型對使用者的隱含假設,並利用線性探測器進行可解釋的微調。結果顯示可有效降低阿諛行為,並闡明模型將使用者需求誤判為「驗證需求」的根本原因。