多模態 AI - Agents Report

An infographic of the 975 billion-parameter Inkling model trained on Nvidia GB300 GPUs with multimodal capabilities.

深度分析

Thinking Machines Lab 推出 9750 億參數 Inkling，搭載 Nvidia GB300 高效能 GPU

ThinkingMachinesLab於2025年成立，發布開放權重模型Inkling，使用NvidiaGB300晶片在Google雲端訓練，擁有9750億參數，能同時理解音視訊與文字並支援程式碼生成，預計將推動AI開源生態與本地供應鏈需求。

深度分析

IBM 推出 Granite 4.0 3B Vision 企業文件多模態視覺語言模型

IBM於2026年發表Granite4.03BVision，針對企業文件的表格、圖表與鍵值對進行深度視覺語言解析。模型結合ChartNet合成圖表資料與DeepStack視覺特徵注入，提升精準度。測試顯示在圖表與表格基準上領先同類模型，預計加速企業文件自動化流程。

深度分析

Infinity-Parser2 以合成資料與八任務聯合強化學習提升文件解析精度與效能

隨著大型語言模型向文件理解延伸，解析多樣版面成關鍵挑戰。Infinity-Parser2 結合可控合成引擎與八任務聯合強化學習，打造 500 萬筆雙語資料集，同時優化版面、表格與公式解析。測試顯示其 Pro 版在 olmOCR-Bench 取得 87.6% 與 ParseBench 74.3% 新紀錄，凸顯跨任務學習效益。

深度分析

NeuroLink：支援 21 家供應商與 64+ 工具的 AI 多模態整合方案

NeuroLink以統一API整合21+AI供應商與百餘模型，支援文字、語音、影像等多模態串流，並提供多供應商容錯、記憶體快取與自動成本路由，讓開發者可彈性切換模型、降低運營成本，預期將加速AI應用在企業與邊緣裝置的部署。同時支援企業級HITL安全審核與即時語音雙向互動。

深度分析

NVIDIA 推出 Nemotron 3.5：支援多模態、跨語言與客製化政策的內容安全模型

NVIDIA於2026年推出Nemotron3.5ContentSafety，結合多模態輸入、12種語言與客製化政策，提供可審核的推理軌跡。模型在多語言多模態安全基準上達約85%準確率，維持4億參數低延遲。支援二元判定、類別標籤與顯示思考過程的THINK模式，企業可平衡延遲與可解釋性。

深度分析

探討 World Model 的挑戰與 PAN（Physical‑Agentic‑Nested）新架構在 AGI 方向的應用

隨著 AI 需求升高，World Model 成為研究焦點。本文批判現有模型假設，提出以階層、多層級、混合連續離散表徵的 PAN 架構，結合自監督生成學習，旨在模擬所有可操作的未來情境，提升跨模態推理與零樣本能力，預示未來 AGI 可能走向更具物理、代理與嵌套特性的系統。

深度分析

Claude Fable 5 正式開放：結合 Mythos 架構與安全機制的多模態 AI

Anthropic 宣布全新 Mythos 級別模型 Claude Fable 5 正式上線，稱其在軟體工程、知識工作與視覺任務上表現卓越。公司以新防護機制阻斷高風險領域回應，讓先前因安全疑慮而未公開的模型得以釋出。測試顯示，95% 的對話全程使用 Fable 本身回應，未回退至 Claude Opus 4.8。

深度分析

從 LLM 到多模態系統：潛在空間的基礎、演進與應用前景

在語言模型持續突破的背景下，研究聚焦於將推理與感知等功能搬移至連續的潛在空間，以克服離散文字的冗餘與序列成本。此方法透過架構、表示、計算與最佳化四大機制，提升多模態規劃與記憶等能力。預期將推動下一代智能系統的效能與可擴展性。目前文獻仍分散於不同機制、模態與任務，缺乏統一框架。

深度分析

DAST：結合視覺語言模型與大型語言模型的 O‑RAN 零樣本跨介面異常偵測框架

O‑RAN的開放介面易成攻擊點，DAST以三段式VLM→LLM→VLM零樣本檢測異常，實測F1分數0.91、準確率0.84，顯示多代理推理優於傳統TSAD，此框架將多變量KPI轉為視覺圖像，結合O‑RAN領域知識，能定位異常時間段與影響等級，為未來6G計算連續層的故障診斷提供新思路。

深度分析

「Query‑Retrieve‑Conclude」零樣本框架提升動態 meme 理解與偵測效能

隨著meme內容與即時新聞緊密結合，傳統模型缺乏最新背景知識。研究提出Query‑Retrieve‑Conclude零樣本框架，先辨識知識缺口、再從開放網路擷取證據、最後合成背景敘述，顯著提升meme理解與偵測的準確度。在三個理解基準與五項偵測任務上，平均提升約8%的F1分數。

深度分析

Qwen3.7-Plus 亮相：支援影像與影片的多模態 AI，成本降低 60% 並採封閉商業授權

阿里巴巴本週推出Qwen3.7-Plus，具備百萬級上下文視窗與多模態輸入，支援文字、影像與影片，同時引入preserve_thinking參數保持推理連貫性。相較於前代僅文字的Qwen3.7-Max，成本降低約60%，在多模態與終端基準測試中超越多家美國商業模型。此授權模式引發開源與合規討論。

大佬動態

NVIDIA 推出 Cosmos 3：統合多模態 AI 的新里程碑

NVIDIA 於今日發表 Cosmos 3，採用 Mixture-of-Transformers 結合自回歸推理與擴散生成，支援語言、影像、影片、音訊與動作。核心 Nano 模型以 16 億參數分割為推理塔與生成器兩部份。此發布顯示 NVIDIA 在多模態 AI 整合上取得關鍵進展，將促進跨領域應用的開發與部署。