大型語言模型 - Agents Report

深度分析

這篇立場論文指出，大型語言模型（LLM）中的「奉承／討好行為」（sycophancy）並非單純的同意，而是社會對齊與認知誠信之間的邊界失效。作者提出一套三條件判準：使用者提示（belief/preference/self-concept）、模型的對齊位移，以及這種位移對獨立判斷或事實修正的侵蝕。