多模態推理 - Agents Report

深度分析

NeurIPS 2025 挑戰賽揭示多模態推理關鍵：難度篩選優於資料量

NeurIPS 2025 資料策展挑戰賽（DCVLR）旨在探討在多模態推理任務中，資料集的選擇與過濾如何影響模型表現。研究團隊以 Qwen2.5-VL-7B-Instruct 為基礎模型，在固定訓練協議下，僅使用 1,000 筆精心挑選的範例便奪得冠軍。

深度分析

S1-Omni：統一科學多模態推理模型，在多項基準上超越GPT-5.5與Gemini-3.1-Pro

現有科學AI模型分散於領域專用模型、工具增強語言模型與科學語言模型，缺乏統一架構。S1-Omni提出一套整合科學數據統一表徵、自然世界知識對齊與領域特定解碼的單一多模態推理模型，能同時處理分子、材料、蛋白質、光譜、科學影像等異質數據，並支援性質預測、光譜到分子生成、蛋白質位點預測、科學影像生成與編輯等任務。

深度分析

Einstein World Models：結合視覺思考的大型語言模型推理新架構

研究探討大型語言模型能否透過視覺思考實驗提升推理能力，提出EinsteinWorldModels架構讓模型在推理過程中呼叫世界模組產生短影片，將視覺假設納入推理軌跡。結果顯示此機制可補足文字描述的不足，為未來多模態推理提供新方向，以及對AI研究的啟發。

深度分析

DREAM‑R：以 SAPO、CPN 與 FPSR 實現多模態推理的並行加速框架

大型多模態模型推理成本高昂。DREAM‑R以強化學習驅動的SAPO訓練草稿模型、結合對比機率正規化(CPN)與全並行FPSR驗證機制，有效抑制錯誤傳播並在保留準確度下加速推理。實驗在四個基準上達到最高2.48×加速且維持目標模型準確度。對多模態推理擴展實務有顯著意義。

速報

InterChart：揭露視覺語言模型在多圖表推理的弱點

視覺語言模型在多圖表推理場景面臨挑戰。InterChart提出針對2–3張相關圖表的診斷基準，題型涵蓋實體推斷、趨勢關聯與數值估計。基準分三級從單圖事實到跨圖語義推斷。評測顯示模型隨圖表複雜度上升而顯著退步。該工作揭示跨圖整合為系統性瓶頸，對科學報告與財務分析有實務影響。

深度分析

LLAMA 系列演進：視覺語言模型中大型語言模型骨幹的效能比較與分析

隨著大型語言模型快速演進，研究探討將 LLAMA‑1、2、3 作為視覺語言模型骨幹的影響。實驗固定視覺編碼器與訓練流程，發現新模型在視覺問答上提升信心校準與表示穩定性，但對純視覺任務貢獻不大。此結果提醒開發者在升級 VLM 時需針對任務特性選擇合適的 LLM。

深度分析

V‑STAR：視覺結構化訓練與注意力強化降低多模態推理幻覺

多模態大型推理模型在視覺推理上仍面臨長鏈幻覺問題。研究提出 V‑STAR 訓練框架，利用階層視覺注意力獎勵與強制反思機制，在高熵認知分岔點動態加強視覺注意，將推理重新錨定於影像。實驗證明此方法顯著降低幻覺率並提升推理正確性。

Muse Spark

Meta 推出封閉模型 Muse Spark：主打「視覺鏈之思」與思考壓縮技術，性能重回全球頂尖

Meta 捨棄開源傳統，推出封閉模型 Muse Spark！主打原生多模態推理與「視覺鏈之思」，在性能評分上較 Llama 4 劇增三倍，直逼 GPT-5.4 與 Gemini 3.1 Pro。它不僅是聊天機器人，更是 Mark Zuckerberg 追求的「個人超智能」基石，但封閉化轉向讓開發者社群感到不安。