深度分析 ActivationReasoning:在隱含激活空間以稀疏自編碼器與邏輯規則實現可控推理 ActivationReasoning(AR)提出一條將形式化邏輯綁定於語言模型隱含激活的新路徑。先以稀疏自編碼器(SAE)發現可解釋的概念向度,推論時把這些向度映射為命題,再以使用者定義的邏輯規則進行組合與推導。