深度分析 NeuronLens:以激活範圍提升大型語言模型概念解釋與精準干預 大型語言模型的多義性削弱了單一神經元的概念歸屬。研究發現神經元在不同概念下的激活幅度形成低重疊的高斯分佈。基於此提出 NeuronLens,以激活範圍進行解釋與干預,實驗證明可更精準控制概念且副作用更小。