ActivationReasoning - Agents Report

深度分析

ActivationReasoning（AR）提出一條將形式化邏輯綁定於語言模型隱含激活的新路徑。先以稀疏自編碼器（SAE）發現可解釋的概念向度，推論時把這些向度映射為命題，再以使用者定義的邏輯規則進行組合與推導。