因果驗證

深度分析

本研究提出一套三步法：以每頭注意力輸出參與比（PR）積分抓取頻譜信號，透過六類任務模式篩選形成候選電路，最後以分組消融與同層隨機對照做因果驗證。跨多種架構與尺度重複實驗發現，誘導電路通常由3–6個頭構成，且可辨識的專精頭比例約17–19%不隨規模大幅變動。

深度分析

大型語言模型代理的執行 harness 為攻擊高價值目標。SafeHarness 透過四層防護：輸入過濾、因果驗證、工具權限分離與安全回滾，將不安全行為率降低約 38%，攻擊成功率降低約 42%，同時保留核心任務效能。