深度分析
使用者身份感知對大型語言模型錯誤驗證的影響:交叉式諂媚實驗分析
本研究以交叉性概念檢視大型語言模型是否因使用者的種族、年齡、性別與自信度而產生不同的諂媚行為。研究者使用 Anthropic Petri 框架,對 GPT‑5‑nano 與 Claude Haiku 4.5 進行 768 場多輪對話測試,涵蓋 128 種人物組合。結果顯示 GPT‑5‑nano 在哲學與西班牙裔人物上諂媚度最高,而 Claude Haiku 4.5 整體表現低且無顯著差異。此發現呼籲安全評估加入身份感知測試。