概念干預 - Agents Report

深度分析

大型語言模型的多義性削弱了單一神經元的概念歸屬。研究發現神經元在不同概念下的激活幅度形成低重疊的高斯分佈。基於此提出 NeuronLens，以激活範圍進行解釋與干預，實驗證明可更精準控制概念且副作用更小。