因果探針 - Agents Report

深度分析

本文以因果框架檢視多模態大語言模型（MLLMs）如何在內部編碼不同類型的視覺概念。研究透過對比激活差分萃取概念向量，並在推論時注入或扣除該向量（激活操控／反向抹除），直接測試表示的充分性與必要性。結果顯示：實體概念表徵高度局部化並具可編輯性；情緒概念落在可分離的子空間；