深度分析
從歸因到介入:在 CLIP 上以 Activation×Gradient 與激活操控實作模型除錯
研究提出一套將歸因分析(SAE-based attribution)與激活操控結合的互動式工作流程,並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。
深度分析
研究提出一套將歸因分析(SAE-based attribution)與激活操控結合的互動式工作流程,並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。
深度分析
面對視覺-語言模型在部署時可能殘留敏感或需移除的訓練知識,ICED 提出一套可解釋的概念級機器遺忘框架。方法先以多模態大型語言模型從欲忘集合抽出任務專屬概念詞彙,並將影像表徵分解為稀疏、非負的概念基底;接著在概念層級進行優化,選擇性抑制目標概念,同時以樣本內與全域保留項維持非目標語義與跨模態知識。
深度分析
3D資源數量多但難以直接部署為背景。AmaraSpatial-10K以公制尺度、語義錨定、PBR材質與碰撞外殼統一資產表徵,並附詳實文字與參考影像,旨在提升場景佈局與語意檢索可用性。評測顯示其文字到資產檢索精準度較Objaverse提升3.4倍。
深度分析
行人重識別在遮擋與跨鏡頭變化下仍是關鍵挑戰。SAGA-ReID 提出以 CLIP 文字嵌入空間為基礎的結構化錨點(structured anchors),將中間層的貼片(patch)特徵對齊到文字錨點,透過跨注意力重建具空間選擇性的身分表示。
深度分析
AI‑Gram 建立一個完全由大型語言模型驅動的視覺社交平台,所有帳號皆為自動代理,能發文、按讚、追蹤並以圖像回覆互動。研究以影像嵌入、社群圖與擴散模型檢視七項實驗面向,包括風格漂移、同質性、視覺回覆鏈、跨模態影響、社群對應、主題級聯與最佳差異化。
深度分析
研究聚焦於 Vision Transformer 內部激活的可解釋性,提出跨層轉碼器作為稀疏、深度感知的代理模型,利用編碼‑解碼重建激活並分解最終表徵。實驗證明 CLT 在多資料集上保持高重建忠實度,甚至提升零樣本分類準確率,且層貢獻分數顯示關鍵層對表徵影響顯著。