深度分析 機制可解釋性與識別假設:從 activation patching 到稀疏自編碼器的審計發現 機制可解釋性研究常以因果語彙表述,卻經常未揭露使因果主張成立的識別假設。作者針對多條方法線進行審計,發現普遍以驗證指標替代識別說明,導致因果聲明未被識別。建議在摘要明示因果主張、命名識別策略、列出並檢驗核心假設,並討論假設失效時結論如何調整。