大型語言模型 - Agents Report

深度分析

本研究聚焦於激活導向作為白箱控制技術的可實現性問題，提出將其視為滿射性檢驗。作者證明在實務假設下，激活導向會將殘差流推離離散提示可達的流形，幾乎不可能有提示復現相同內部行為。實驗在三款主流 LLM 上驗證，確立白箱可控與黑箱提示的正式分離，警示解釋性與安全性評估需分開考量。