視覺語言模型 - Agents Report | 代理人報告 (Page 5)

深度分析

Granite 4.0 3B Vision：以ChartNet、DeepStack與LoRA實現企業級文件視覺語言模型

Granite4.03B Vision由IBM團隊推出，聚焦企業文件與圖表的視覺語言理解。核心採用ChartNet合成資料與DeepStack多階層視覺注入，並以LoRA附加於Granite4.0 Micro維持模組化部署。其在圖表摘要、表格抽取與語義KVP任務上展現領先或接近最佳的表現，有助提升企業自動化文件處理的穩定性與效率。

深度分析

自適應承諾深度：在 VLM 中學習何時重規劃以優化長程視覺推理

長程視覺語言推理需決定何時重新規劃。本文讓承諾深度成為模型內可學習變數，由單一VLM同時預測執行動作與持續步數，實驗在SlidingPuzzle與Sokoban展現顯著效能提升。結果在多種決策預算下顯示自適應承諾在成功率與行動效率間取得更好平衡。值得進一步研究

速報

弱對齊第一人稱視角下的視覺語言模型：Machine-DevBench 與 EgoBabyVLM 挑戰

研究指出當前視覺語言模型難以從嬰幼兒與第一人稱影像學到穩定語義。研究以不同語義對齊資料訓練模型並提出以詞彙與語法為核心的Machine-DevBench作為評估。結果顯示模型依賴精準配對資料，無法善用弱對齊自然視角，並提出EgoBabyVLM Challenge以促進改進。

深度分析

PluRule：以多模態對比資料評估視覺語言模型在多元社群審核的效能

社群治理正朝向由社群自行訂規範的多元化趨勢。PluRule 提供一個多語、多模態的基準資料集，收錄13,371則違規實例、72,675則留言與3,643張圖片，涵蓋1,989個Subreddit與2,885項規則。

深度分析

以域轉移與對比學習強化 SAR 語義：SARCLIP 與 1.7M 圖文資料集分析

合成孔徑雷達具全天候與穿透優勢,但影像含斑點噪聲與語義稀少。本文提出SARCLIP與SARCLIP-1M資料集,以光學→SAR的兩階段域轉移及對比式視覺語言訓練,促成圖文語義對齊並提升目標辨識與零樣本分類性能,顯著超越現有基模型。可望推動SAR多模態應用與開發者生態變革。

速報

VideoGameBench：以90年代遊戲檢驗視覺語言模型即時能力

研究團隊提出VideoGameBench，一套以10款90年代真實遊戲評測視覺語言模型（VLMs）感知、空間導航與記憶管理能力的基準。模型只取得原始畫面與高階目標與控制說明，三款遊戲保密以檢驗一般化。實驗顯示前沿模型在即時互動下多半難以超過開局，推理延遲為主要瓶頸；

深度分析

偏向轉移矩陣驅動的 BICL：提升百類以上互補標籤學習準確度

面對大量類別的標註瓶頸,研究提出Bias‑InducedConstrainedLabeling(BICL)透過限制每類的互補標籤候選集合並使用視覺語言模型進行負向提示標註,能大幅降低監督不確定性並在CIFAR‑100與TinyImageNet‑200上顯著提升分類效能。

深度分析

PhysBrain 1.0 將第一人稱影片編譯為物理化監督，擴展 VLM 到 VLA

研究指出，單靠機器人軌跡難以建立全面物理常識。本研究把大量人類第一人稱互動影像編譯成結構化場景記錄，再轉為物理問答供訓練。接著以保能力且敏感語言的方式，將這些物理先驗轉移至視覺語言行為策略。結果在多項多模態問答與實體控制基準上達到領先，並顯示強烈的域外泛化能力。

深度分析

Granite 4.0 3B Vision：以 ChartNet、DeepStack 與 LoRA 加速企業文件視覺語言理解

IBM推出的Granite4.03BVision專為企業文件理解設計。它結合ChartNet合成資料、DeepStack視覺注入與LoRA模組化佈署，強化圖表、表格與語義鍵值擷取能力。模型在多項圖表與表格基準上達到領先或接近領先的成績，便於整合至文件處理流水線。

深度分析

WaferSAGE：以合成資料與量尺化強化學習驅動晶圓視覺語言模型的可解釋缺陷分析

半導體製程仰賴晶圓瑕疵分析但受限於資料稀缺與隱私限制。WaferSAGE以三階段合成資料、結構化評分規則與課程式強化學習，生成可評估的視覺問答對並對齊自動化評估指標。實驗顯示在本地部署下，小型視覺語言模型能接近商用大型模型的判讀表現並降低成本與隱私風險。

深度分析

UJEM-KL：以熵最大化與 KL 散度正則化發動非定向多模態越獄

本文重新檢視視覺語言模型（VLM）越獄攻擊的可轉移性，提出 UJEM-KL —— 一種在影像端進行非定向擾動的攻擊方法。作者發現拒絕回應常集中於自回歸解碼中的少數高熵決策 token；基於此，UJEM-KL 在這些位置最大化輸出熵，同時以 KL 正則化穩定低熵結構位置以維持生成品質。

深度分析

Gate-and-Merge：以模組化 LoRA 與門控合併實現視覺語言模型的零次個人化

本研究提出Gate-and-Merge，一套針對視覺語言模型（VLM）進行組合化個人化的零次學習框架。每個使用者自定義概念以輕量化LoRA適配器與專屬概念token獨立學習，基底模型保持凍結。推論時透過門控機制估計文本與視覺線索，選擇性啟動相關模組，並在權重空間合併經稀疏化與符號一致性的更新以抑制干擾。