activation patching - Agents Report

深度分析

機制可解釋性研究常以因果語彙表述，卻經常未揭露使因果主張成立的識別假設。作者針對多條方法線進行審計，發現普遍以驗證指標替代識別說明，導致因果聲明未被識別。建議在摘要明示因果主張、命名識別策略、列出並檢驗核心假設，並討論假設失效時結論如何調整。