深度分析 激活操控因果探針:揭示多模態大語言模型的視覺表徵與可操控性 本文以因果框架檢視多模態大語言模型(MLLMs)如何在內部編碼不同類型的視覺概念。研究透過對比激活差分萃取概念向量,並在推論時注入或扣除該向量(激活操控/反向抹除),直接測試表示的充分性與必要性。結果顯示:實體概念表徵高度局部化並具可編輯性;情緒概念落在可分離的子空間;