視覺語言模型 - Agents Report | 代理人報告 (Page 3)

深度分析

結合反事實生成與稀疏電路分析降低 VLM 幻覺：方法與實驗

本研究探討視覺語言模型幻覺的因果穩定性，利用CD‑T電路發掘關鍵稀疏電路，並以潛在反事實樣本測試激活差異，透過Bernstein上界估算所需樣本數。結果顯示低變異電路能顯著降低幻覺率，提升模型在POPE、COCO與HallusionBench的表現，且樣本複雜度指標提供部署可靠性參考。

深度分析

從 LLM 到多模態系統：潛在空間的基礎、演進與應用前景

在語言模型持續突破的背景下，研究聚焦於將推理與感知等功能搬移至連續的潛在空間，以克服離散文字的冗餘與序列成本。此方法透過架構、表示、計算與最佳化四大機制，提升多模態規劃與記憶等能力。預期將推動下一代智能系統的效能與可擴展性。目前文獻仍分散於不同機制、模態與任務，缺乏統一框架。

速報

SS-TPT：以穩定性與適切性導向的測試時提示微調提升視覺語言模型防禦效能

視覺語言模型在零樣本辨識上表現優異，但在遭受對抗擾動時仍極易失效。傳統的測試時適應防禦通常需要大量增強視圖，導致效能下降與實用性受限。

深度分析

DAST：結合視覺語言模型與大型語言模型的 O‑RAN 零樣本跨介面異常偵測框架

O‑RAN的開放介面易成攻擊點，DAST以三段式VLM→LLM→VLM零樣本檢測異常，實測F1分數0.91、準確率0.84，顯示多代理推理優於傳統TSAD，此框架將多變量KPI轉為視覺圖像，結合O‑RAN領域知識，能定位異常時間段與影響等級，為未來6G計算連續層的故障診斷提供新思路。

速報

DRIFT 框架：讓預訓練視覺語言模型支援連續輸出

近年視覺語言模型多採用離散文字自回歸解碼，雖能在多任務上展現零樣本能力，卻難以處理需要精確連續輸出的任務，例如事件時間邊界定位或機器人控制指令。

深度分析

以布魯姆認知層級測試英阿雙語視覺語言模型的 BloomBench 基準概述

研究指出，BloomBench以布魯姆認知層級設計英阿雙語影像問答測試，涵蓋記憶、理解、應用、分析、評估與創造六大層次，揭露現有視覺語言模型在事實回憶與創造力上仍有明顯短板，同時顯示阿拉伯語表現落後於英語，突顯跨語言多模態推理的挑戰，為未來模型在認知深度與語言公平性上的改進提供方向。

深度分析

大規模 GUI 拖曳資料集 DragOn：渲染即標註提升 VLM 空間定位精度

圖形使用者介面（GUI）代理人正快速成為自動化數位工作的重要工具。過去大量點擊式資料集推動了點擊定位技術，但拖曳互動仍缺乏足夠訓練資源。

深度分析

NoRA 基準：以第一人稱視角評估視覺語言模型的社會常識與行為合理性

隨著 AI 代理人進入現實社會，其行為是否符合社會規範成為關鍵。研究團隊推出 NoRA 基準測試，要求模型在第一人稱視角影片中自主生成合理動作，並以事實、原因與動作的結構化支持圖來證明其合理性，而非僅僅從選項中選擇答案。測試結果顯示，目前主流 VLM 雖能識別場景事實，但在建構合理動作空間與邏輯綁定上仍有困難，顯著揭示了 AI 代理人實作行為合理性的挑戰。

深度分析

VAMPS 基準揭示多模態大語言模型在圖形輔助數學解題的瓶頸

本研究針對多模態大型語言模型在圖形輔助數學解題上的表現差距，推出首個波斯文‑英雙語 VAMPS 基準，測試模型自行生成圖形並以視覺證據作答，結果顯示直接文字推理仍優於工具視覺解題。基準收錄 1,168 題多模態選擇題，使用 Desmos 圖形工具，揭示模型在圖形生成、解讀與答案結合的環節仍存在顯著瓶頸。

深度分析

「TASTE」多維度設計師標註資料集揭示 AI 平面設計模型與設計師偏好落差

研究針對AI生成平面設計偏好缺乏多維評分，推出TASTE資料集由10位設計師針對四個文字轉圖模型在九項指標上完成1600筆評分，驗證每項指標皆具顯著偏好訊號，且現有模型最高僅達0.55的與設計師共識，顯示仍有提升空間此資料集亦提供跨領域對照測試，將設計師共識與餐飲、電影等偏好進行比較。

深度分析

「SCOPE」框架：邊緣 AI 下自然語言驅動 PTZ 攝影機的即時控制與視覺語言模型整合

隨著語言模型在機器人領域的應用日增，研究者推出SCOPE框架，結合小型語言模型與輕量視覺語言模型，於模擬與實體PTZ攝影機上實現即時閉環控制，證實在邊緣硬體上可維持約2Hz速率並顯著降低幻覺與錯誤。同時驗證混合專家模型在效能與記憶體占用上優於傳統密集模型，量化技術進一步提升效率而損失微乎其微。

深度分析

STaR‑KV：時空自適應 KV 快取壓縮提升 GUI 代理人效能與記憶體利用率

圖形使用者介面（GUI）代理人因KV快取隨交互步驟線性增長而受限，STaR‑KV提出時空自適應重新加權，透過子空間互資訊、時間穩定折扣與熵導溫度三軸校準，於四項基準測試中在相同記憶體預算下提升準確度並減少近40%峰值GPU記憶體效能使用。