深度分析
從歸因到介入:在 CLIP 上以 Activation×Gradient 與激活操控實作模型除錯
研究提出一套將歸因分析(SAE-based attribution)與激活操控結合的互動式工作流程,並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。
深度分析
研究提出一套將歸因分析(SAE-based attribution)與激活操控結合的互動式工作流程,並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。
深度分析
研究探討大型語言模型是否在生成文本時進行隱性規劃。研究用平均激活差向量介入中間激活,改變押韻與問答的最終詞生成;實驗以押韻詩與問答為例。結果指出自1B參數模型起顯著可觀察到規劃跡象,且可透過激活操控改變生成傾向,對模型控制與安全具指標性意義。
深度分析
本文以因果框架檢視多模態大語言模型(MLLMs)如何在內部編碼不同類型的視覺概念。研究透過對比激活差分萃取概念向量,並在推論時注入或扣除該向量(激活操控/反向抹除),直接測試表示的充分性與必要性。結果顯示:實體概念表徵高度局部化並具可編輯性;情緒概念落在可分離的子空間;