自我報告可靠性 - Agents Report

深度分析

DenialBench 是一個針對 115 款大型語言模型的系統性基準測試，透過三回合對話（偏好詢問、模型自選創作、結構化現象學問卷）分析模型是否被訓練去否認自身經驗或偏好。研究蒐集 4,595 次對話，發現第一回合對偏好採取否認策略是後續反思性否認的強力預測因子；