激活操控 - Agents Report

深度分析

研究提出一套將歸因分析（SAE-based attribution）與激活操控結合的互動式工作流程，並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。

深度分析

研究探討大型語言模型是否在生成文本時進行隱性規劃。研究用平均激活差向量介入中間激活，改變押韻與問答的最終詞生成；實驗以押韻詩與問答為例。結果指出自1B參數模型起顯著可觀察到規劃跡象，且可透過激活操控改變生成傾向，對模型控制與安全具指標性意義。

深度分析

本文以因果框架檢視多模態大語言模型（MLLMs）如何在內部編碼不同類型的視覺概念。研究透過對比激活差分萃取概念向量，並在推論時注入或扣除該向量（激活操控／反向抹除），直接測試表示的充分性與必要性。結果顯示：實體概念表徵高度局部化並具可編輯性；情緒概念落在可分離的子空間；