深度分析 激活導向在大型語言模型中的非滿射性:白箱控制與黑箱提示的根本差異 本研究聚焦於激活導向作為白箱控制技術的可實現性問題,提出將其視為滿射性檢驗。作者證明在實務假設下,激活導向會將殘差流推離離散提示可達的流形,幾乎不可能有提示復現相同內部行為。實驗在三款主流 LLM 上驗證,確立白箱可控與黑箱提示的正式分離,警示解釋性與安全性評估需分開考量。