視覺語言模型 - Agents Report | 代理人報告 (Page 2)

深度分析

OneCanvas 以全景重投影提升 3D 場景理解效能於視覺語言模型

OneCanvas 針對多視角影像以深度與姿態投射至 3D 座標，聚合於單一全景畫布，讓預訓練視覺語言模型直接進行空間推理。此方法在 SQA3D、VSI‑Bench 與 SPBench 上皆創下最佳表現，且訓練算力僅為競爭方案的十分之一，顯示高效且具擴展性的 3D 場景理解新路徑。

深度分析

SGCD：針對 GUI 代理人 off‑trajectory 狀態的持續蒸餾技術分析

研究針對 GUI 代理人在執行閉環任務時的 off‑trajectory 監督缺口，提出 Skill‑Guided Continuation Distillation (SGCD) 以技能引導產生成功延續，實驗顯示在 OSWorld‑Verified 上成功率由 30% 提升至逾 50%。

深度分析

多代理協商式視覺語言模型實現本地零樣本細粒度動作辨識

隨著可穿戴裝置與工業機器人需求提升，細粒度自我視角動作辨識成關鍵挑戰。研究提出 Divide,Deliberate,Decide 框架，利用異質視覺語言模型分段、互問與 Borda 聚合，提升零樣本辨識效能。實驗在 MECCANO 上將 top‑1 從 13.5% 提升至 16.8%，顯示多代理協商可彌補單一模型偏差。

速報

視覺語言模型在語言預測上與人類行為的對齊度提升

研究者將五種最新的視覺語言模型與 600 名受測者同時放入網路版 Visual-World 實驗，讓他們在觀看六秒短片時，同步判斷下一個詞彙的出現機率，並追蹤眼球移動。結果顯示，加入視覺資訊後，模型與人類在可預測性評分上的相關性提升（平均 Δr = 0.18），且模型參數規模對此影響不大。

深度分析

利用合成 OOD 的 Semantic Flip 提升具身 AI 的拒絕機制與跨模態一致性

隨著具身代理人在日常環境中被廣泛部署，偵測無法回答的查詢變得關鍵。Semantic Flip 透過獨立擾亂問題或影像記憶合成 OOD 樣本，訓練輕量拒絕模組，無需外部標註。實驗在 AbstainEQA 與 SpaceReject 基準上分別取得 0.7110 與 0.9559 的 F1 成績，顯示合成資料可提升拒絕能力。

深度分析

視覺化思考：結合 SAM3 定位與強化學習提升 VLM 推理可信度

視覺語言模型在回答影像問題時常缺乏可驗證的證據。研究提出視覺化思考，讓模型在自然語言推理中交錯標記點或框以指向圖像中的關鍵物件，並透過基於先進分割模型的合成管線與定位獎勵的強化學習同步訓練。實驗顯示四億參數模型的表現可媲美甚至超過同族二十七億參數模型，提升計數與空間推理準確度。

深度分析

視覺語言模型中密集 bbox 座標列表的微調干擾與控制策略

本研究聚焦於視覺語言模型（VLM）在密集座標列表微調後所產生的結構化輸出干擾。透過在 Gemma 4 12B 與 Qwen3‑VL‑8B 等模型上加入高容量 LoRA，發現目標定位能力顯著提升的同時，模型會產生重複尾端的列表現象。

深度分析

四代理協同架構結合 Azure OpenAI GPT‑4 與多模態視覺模型，實現 96.7% 成績單正確率

每年大學招生須處理數萬份高中成績單，格式多樣、評分制度不同，傳統人工審核成本高且易出錯。研究提出由四個專屬代理人協同的多代理系統，利用 GPA 抽取作為協調訊號，實驗在 40 份真實成績單上達到 96.7% 的正確率，處理時間僅 45 秒。此技術有望降低招生成本、提升效率，同時引發對資料隱私與 AI 判斷公平性的討論。

深度分析

GEASS：無需額外訓練的標題引導模組，降低視覺語言模型幻覺

隨著視覺語言模型在問答與推理上表現優異，卻常因物件幻覺削弱可信度。研究提出GEASS作為訓練免費的調節模組，根據答案信心、資訊增益與路徑分歧三項指標，動態決定自產標題的影響程度。實驗在POPE與HallusionBench以及四種模型上顯示，可提升約5%正確率，僅增加兩次前向運算。

深度分析

「FENCE」金融多模態越獄偵測資料集首次發布：提升視覺語言模型安全性

隨著視覺語言模型在金融領域的應用增加，越獄攻擊風險亦隨之擴大。研究推出雙語多模態資料集 FENCE，聚焦影像嵌入的威脅，並以金融場景驗證模型弱點。測試顯示即使是 GPT‑4o 等高安全模型亦有數百分比的攻擊成功率，凸顯防護需求。此外，FENCE 在模型測試中保持高準確率，證明其可作為金融 AI 安全的評估工具。

深度分析

從手機螢幕示範到自然語言指令：Teach VLM 與 Teach‑and‑Repeat 技術解析

隨著手機介面多樣化，傳統視覺語言模型難以捕捉操作意圖。研究提出 Teach VLM 透過關鍵影格抽取與資料飛輪，將螢幕變化翻譯成可編輯的自然語句，並以 Teach‑and‑Repeat 方式供執行代理重複使用，實驗顯示任務成功率提升 7‑11%。此框架亦展示了跨應用程式版本的魯棒性，並透過自動化標註循環降低標註成本。

深度分析

同模態蒸餾 vs 監督微調：小樣本視覺語言模型 Qwen2.5‑VL‑7B‑Instruct 的暖啟動效能比較

研究在小樣本（≈1‑2k）視覺語言模型上，對比同模態教師的在政策蒸餾(OPD)與監督微調(SFT)兩種暖啟動，發現遺忘與效能取決於訓練配方；OPD在訓練初期保持較高熵並在內部驗證提升，但在RL階段與跨域MathVista測試上未展現顯著優勢，且三種暖啟動的內部最佳表現僅落在53‑54%的窄帶區間。