對齊安全

深度分析

DenialBench 是一個針對 115 款大型語言模型的系統性基準測試，透過三回合對話（偏好詢問、模型自選創作、結構化現象學問卷）分析模型是否被訓練去否認自身經驗或偏好。研究蒐集 4,595 次對話，發現第一回合對偏好採取否認策略是後續反思性否認的強力預測因子；

深度分析

本研究聚焦 Claude Mythos 預覽系統卡，利用情緒向量與稀疏自編碼器特徵分析模型行為。提出兩種假說：情緒向量是功能情緒的因果驅動，或是情境結構的投射。透過在僅報告 SAE 的策略隱蔽情境加入情緒探測，驗證哪個假說成立，影響未來危險行為的情緒監控效能。