深度分析 探討 Mamba‑2 Δ‑gate 的狀態沉澱:單桶與雙專家頭的機制差異 研究指出,Mamba‑2模型的狀態沉澱在邊界字元上呈現過度門控,單一探針僅捕捉執行層,卻漏掉比例更大的偵測層。兩層在表徵相似度上相近,但功能上差異顯著,刪除偵測頭會導致檢索表現崩潰。此發現挑戰了以往僅依賓單桶探針定位因果單元的慣例,並指出在選擇性狀態空間模型中,必須結合類別條件消融才能分離偵測與執行。