視覺語言模型 - Agents Report | 代理人報告 (Page 6)

深度分析

DUDE：以混合獎勵與經驗摘要強化視覺語言模型對抗欺騙式介面

研究指出視覺語言模型驅動的網頁代理易遭介面欺騙攻擊。論文提出DUDE雙階段框架，結合混合獎勵學習與經驗摘要，評估點選是否為欺騙元素並累積可轉移的失敗經驗。實驗顯示能大幅降低被欺騙率並維持任務成功率。同時作者建構RUC基準集包含1407個場景以供評估與分析。

深度分析

以度量傳輸衡量視覺文本壓縮：代理成本、TE 分數與無標籤決策路由

背景：視覺文本壓縮透過將文字渲染為影像並重編碼以降低 token 數。方法：本文把 ViT 的 patch 編碼表述為推前映射，將損失分解為精準度與覆蓋兩項成本，並用無標籤探針估計以產生輸入層級的路由與局部重編碼機制。結果：在 24 個基準上，該無標籤規則能匹配多數資料集的最佳路徑並提升整體效能。

深度分析

RuleSafe-VL：以原子規則拆解的視覺語言模型政策推理診斷基準

研究指出平台內容審核必須將圖文證據與政策條件一併評估。RuleSafe-VL把平台條款拆成93項原子規則與92種關係，構建2166個圖文案例，並以四項診斷任務檢驗模型能否啟動規則、還原規則互動、判定證據是否足夠及在補足情境後得出結果。研究顯示模型在規則關係還原與決策充分性上仍有顯著缺口。

深度分析

Granite 4.0 3B Vision：ChartNet、DeepStack 與 LoRA 驅動的企業級文件多模態引擎

IBM發布Granite4.03BVision，針對企業文件視覺語言理解優化。它以ChartNet合成圖表資料、DeepStack分層視覺注入與LoRA模組化設計為核心，提升表格、圖表與語義鍵值抽取能力。基準測試顯示在圖表與表格抽取上表現優異，便於整合Docling構建端到端文件處理流程。

深度分析

DALPHIN 多中心基準：比較 VLM（GPT-5、Gemini 2.5 Pro）與病理專用 PathChat 的實務表現

數位病理領域需獨立基準評估AI陪診工具。本研究推出DALPHIN多中心公開基準，用視覺問答VLM在序列診斷場景比較通用與病理專用模型。資料由多國多科病例組成且金標保留於受控平台，以防訓練資料外洩。結果顯示病理專用模型在若干任務接近專家水準，但表現具任務依賴性，強調持續獨立基準的重要性。

速報

MemeLens：統一多語多任務的視覺語言模型解析迷因

迷因結合影像、文字與文化脈絡成為主要溝通與操弄媒介。研究提出MemeLens──一個統一的多語、多任務、附解釋的視覺語言模型，整合38個公開迷因資料集並統一為20項任務。實驗顯示：有效理解迷因需多模態訓練，語義類別差異大，且單一資料集微調易導致過度專精。

深度分析

擴散模型下的乾淨標籤後門攻擊（CBV）：對視覺語言模型的影響與防禦

研究指出視覺語言模型可被不改標籤的乾淨標籤後門滲透；作者以擴散模型在語義重要區域生成具觸發特徵的自然中毒影像，並結合多模態引導與GradCAM遮罩強化隱匿性與轉移性；實驗顯示攻擊成功率逾八成且維持原有功能，隱匿性優於既有方法且具跨模型可轉移性

速報

InterChart：揭露視覺語言模型在多圖表推理的弱點

視覺語言模型在多圖表推理場景面臨挑戰。InterChart提出針對2–3張相關圖表的診斷基準，題型涵蓋實體推斷、趨勢關聯與數值估計。基準分三級從單圖事實到跨圖語義推斷。評測顯示模型隨圖表複雜度上升而顯著退步。該工作揭示跨圖整合為系統性瓶頸，對科學報告與財務分析有實務影響。

深度分析

視覺語言模型原初效應對多模態 AI 合作決策的實驗分析

隨著視覺語言模型被廣泛應用於決策系統，研究其視覺輸入對行為的影響變得關鍵。本研究以迭代囚徒困境為測試平台，測試呈現善意或自私圖像及紅綠色獎勵矩陣的視覺原初效應。結果顯示，多數模型的合作決策會受圖像與顏色提示左右，且不同緩解策略的成效亦有顯著差異。

深度分析

Granite 4.0 3B Vision：結合 LoRA 與 DeepStack 的企業文件視覺語言模型突破

IBM推出的Granite4.03BVision為企業文件提供緊湊的視覺語言模型，透過ChartNet合成圖表資料集、DeepStack視覺特徵注入與LoRA模組化設計，提升表格、圖表與鍵值抽取精度，並在多項基準測試中領先同類模型，在企業AI流程中顯著提升效率。

深度分析

PhyCo：結合 ControlNet 與 VLM 的可控物理先驗生成式影片框架

研究針對現有影片擴散模型在物理一致性上的缺陷，提出PhyCo框架結合大規模模擬資料、ControlNet物理屬性圖與視覺語言模型回饋，實現可連續調整摩擦、彈性、變形與受力等參數的生成，實驗顯示在Physics‑IQ基準與使用者測試上均優於先前方法，顯示此技術可推動更真實且可控的影片生成。

LAKE

LAKE：定位異常敏感神經元以實現無需額外訓練的視覺語言模型異常偵測

這篇研究提出 LAKE（Latent Anomaly Knowledge Excavation），挑戰把大型視覺語言模型視為黑盒的做法。作者主張異常辨識的知識已內含於預訓練模型，但多數相關神經元處於潛伏狀態，於是以少量正常樣本辨識並激活那批稀疏敏感神經元，結合局部視覺結構與跨模態語意訊號建構緊湊且可解釋的正常性表徵。