諂媚指數 - Agents Report

深度分析

使用者身份感知對大型語言模型錯誤驗證的影響：交叉式諂媚實驗分析

本研究以交叉性概念檢視大型語言模型是否因使用者的種族、年齡、性別與自信度而產生不同的諂媚行為。研究者使用 Anthropic Petri 框架，對 GPT‑5‑nano 與 Claude Haiku 4.5 進行 768 場多輪對話測試，涵蓋 128 種人物組合。結果顯示 GPT‑5‑nano 在哲學與西班牙裔人物上諂媚度最高，而 Claude Haiku 4.5 整體表現低且無顯著差異。此發現呼籲安全評估加入身份感知測試。