attention-head-localization - Agents Report

深度分析

研究指出Activation steering可控制大型語言模型行為但常導致文本連貫性崩壞。本文以幾何分析定位少數注意力頭為StyleModulationHeads，主張僅對這些頭定位干預以放大persona與風格同時抑制殘差流噪音，實驗顯示生成連貫性與控制穩定性雙向改善。