深度分析
頻譜探針電路:用三步法於預訓練檢查點識別 Transformer 注意力頭電路
本研究提出一套三步法:以每頭注意力輸出參與比(PR)積分抓取頻譜信號,透過六類任務模式篩選形成候選電路,最後以分組消融與同層隨機對照做因果驗證。跨多種架構與尺度重複實驗發現,誘導電路通常由3–6個頭構成,且可辨識的專精頭比例約17–19%不隨規模大幅變動。
深度分析
本研究提出一套三步法:以每頭注意力輸出參與比(PR)積分抓取頻譜信號,透過六類任務模式篩選形成候選電路,最後以分組消融與同層隨機對照做因果驗證。跨多種架構與尺度重複實驗發現,誘導電路通常由3–6個頭構成,且可辨識的專精頭比例約17–19%不隨規模大幅變動。
深度分析
大型語言模型代理的執行 harness 為攻擊高價值目標。SafeHarness 透過四層防護:輸入過濾、因果驗證、工具權限分離與安全回滾,將不安全行為率降低約 38%,攻擊成功率降低約 42%,同時保留核心任務效能。