Dyck‑1 - Agents Report | 代理人報告

深度分析

探討 Transformer 中堆疊向量的因果角色：Dyck‑1 與 Shuffle‑k 實驗全解

本研究以形式語言 Dyck-1 與 Shuffle‑k 為測試平台，利用線性探測器從 Transformer 隱層中抽取堆疊深度資訊，並在推論階段剔除該方向。實驗發現序列正確率幾近歸零，顯示堆疊表示對模型預測具因果必要性。相較於僅做相關性探測的傳統方法，此因果驗證提供更堅實的解釋依據，暗示未來在模型安全與可解釋性設計上可能成為關鍵技術。