深度分析 探討 Transformer 中堆疊向量的因果角色:Dyck‑1 與 Shuffle‑k 實驗全解 本研究以形式語言 Dyck-1 與 Shuffle‑k 為測試平台,利用線性探測器從 Transformer 隱層中抽取堆疊深度資訊,並在推論階段剔除該方向。實驗發現序列正確率幾近歸零,顯示堆疊表示對模型預測具因果必要性。相較於僅做相關性探測的傳統方法,此因果驗證提供更堅實的解釋依據,暗示未來在模型安全與可解釋性設計上可能成為關鍵技術。