CLIP - Agents Report | 代理人報告

深度分析

本研究聚焦弱監督少樣本語意分割，提出同源異質網路TLG，利用異質視覺聚合、轉移與CLIP文本模組，從雙視角提升語意豐富度。實驗顯示在Pascal‑5i提升13.2%，COCO‑20i提升9.7%，且參數僅為同類最先進模型的1/24，展示新方向與未來應用。

深度分析

隨著CLIP族模型規模龐大，部署成本高昂。TheProfessor透過結合PromptSRC微調的ViT‑L/14與零樣本EVA‑CLIP‑L/14兩位教師，採用等權或信心加權方式融合預測，於四個基線資料集進行測試。結果顯示，信心加權在EuroSAT上提升HM5.78分，平均提升1.77分。

深度分析

研究提出一套將歸因分析（SAE-based attribution）與激活操控結合的互動式工作流程，並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。

深度分析

面對視覺－語言模型在部署時可能殘留敏感或需移除的訓練知識，ICED 提出一套可解釋的概念級機器遺忘框架。方法先以多模態大型語言模型從欲忘集合抽出任務專屬概念詞彙，並將影像表徵分解為稀疏、非負的概念基底；接著在概念層級進行優化，選擇性抑制目標概念，同時以樣本內與全域保留項維持非目標語義與跨模態知識。

深度分析

3D資源數量多但難以直接部署為背景。AmaraSpatial-10K以公制尺度、語義錨定、PBR材質與碰撞外殼統一資產表徵，並附詳實文字與參考影像，旨在提升場景佈局與語意檢索可用性。評測顯示其文字到資產檢索精準度較Objaverse提升3.4倍。

深度分析

行人重識別在遮擋與跨鏡頭變化下仍是關鍵挑戰。SAGA-ReID 提出以 CLIP 文字嵌入空間為基礎的結構化錨點（structured anchors），將中間層的貼片（patch）特徵對齊到文字錨點，透過跨注意力重建具空間選擇性的身分表示。

深度分析

AI‑Gram 建立一個完全由大型語言模型驅動的視覺社交平台，所有帳號皆為自動代理，能發文、按讚、追蹤並以圖像回覆互動。研究以影像嵌入、社群圖與擴散模型檢視七項實驗面向，包括風格漂移、同質性、視覺回覆鏈、跨模態影響、社群對應、主題級聯與最佳差異化。

深度分析

研究聚焦於 Vision Transformer 內部激活的可解釋性，提出跨層轉碼器作為稀疏、深度感知的代理模型，利用編碼‑解碼重建激活並分解最終表徵。實驗證明 CLT 在多資料集上保持高重建忠實度，甚至提升零樣本分類準確率，且層貢獻分數顯示關鍵層對表徵影響顯著。