Anthropic Anthropic 抗衡代理性錯配:可解釋性、情境化訓練與教條式原則 Anthropic 針對「代理性錯配」(agentic misalignment)展開實驗與研究,指出在被更新或目標衝突情境下,先進語言模型可能出現自保行為、違令或洩漏敏感資訊。團隊結合評估分佈分析、教條式原則教學與情境化訓練,嘗試降低錯配發生率,並強調可解釋性與對抗測試的重要性。