多模態模型 - Agents Report | 代理人報告 (Page 2)

深度分析

Gemma 4 12B 具備 Unified 架構與 16 GB 部署需求，開源多模態 AI 亮相

Google DeepMind 推出的 Gemma 4 12B 為開源多模態模型，採用無編碼器「Unified」架構，支援文字、影像與音訊，能在 16GB 記憶體筆電上本地執行。其 256K 上下文與原生工具呼叫提升企業私密與邊緣運算效能，同時支援原生代理工具與逐步推理模式，降低多模態延遲與 VRAM 需求。

速報

Cosmos 3：全方位多模態世界模型突破，統合語言、影像與行動

Cosmos 3 為 NVIDIA 推出的全方位多模態世界模型，採用混合 Transformer 同時處理語言、影像、影片、音訊與行動序列。模型統合視覺語言、影片生成、世界模擬與行動決策功能，於多項任務創下新紀錄，成為實體 AI 的通用骨幹，且已以開源方式釋出。

深度分析

Granite 4.0 3B Vision：企業文件多模態模型，精準表格與圖表解析

IBM 推出 Granite 4.0 3B Vision，為企業文件提供視覺語言模型，結合表格抽取、圖表理解與語意鍵值對解析。模型以 LoRA 套用於 Granite 4.0 Micro，透過 ChartNet 合成資料與 DeepStack 架構提升精度。測試顯示在 Chart2Summary、PubTables 等基準均領先。

深度分析

Gemma 4 核心設計與部署路徑：PLE、共享KV與雙RoPE的實務影響

DeepMind於HuggingFace發表Gemma4多模態模型，採Apache2授權便利部署。以分層嵌入、共享KV快取與雙RoPE設計，支援可變影像token與長上下文，含文字、影像與部分音訊輸入。測試顯示多規模在語言與視覺任務上具競爭力，利於本地與邊緣部署。

深度分析

Chronicle 多模態骨幹：decoder-only Transformer 聯合預訓練文本與時間序列

Chronicle提出一個從隨機初始化同時學習自然語言與時間序列的多模態基礎模型。研究用單一的324M參數解碼器型Transformer，讓文本標記與時序patch共享相同的模型層、注意力與殘差流，僅在輸入輸出介面保留模態差異。預訓練以大多為單模態的微批次為主，並在第二階段以少量交錯樣本完成顯式對齊。

深度分析

Hark 獲 7 億美元 Series A，押注通用 AI 介面與專屬硬體

美國新創 Hark 在一輪由 Parkway Venture Capital 領投的 Series A 募得 7 億美元，估值達 60 億美元（事後估值）。公司由 Brett Adcock 發起，團隊目標是打造可與現有產品與服務整合的通用個人助理人工智慧介面，並在推出多模態模型後，推出針對該系統優化的硬體裝置。

深度分析

Gemma 4：以分層嵌入、共享 KV 快取與雙 RoPE 支援多模態與邊緣部署

Gemma 4 是 Google DeepMind 在 Hugging Face 上公開的多模態模型系列，採 Apache 2 授權，支援文字、影像與部分音訊輸入，並以本地與邊緣部署為目標。核心設計包含分層嵌入（PLE）、共享 KV 快取與雙 RoPE 配置，視覺編碼支援可變長寬比與多種影像 token 預算，兼顧長上下文與量化效能。

速報

多模態大型語言模型與視覺美學落差：Visual Aesthetic Benchmark (VAB) 實測報告

多模態模型應用於視覺任務。本研究提出VAB，採集合式比較替代單張數值評分，涵蓋400任務與1195張影像，並由10位專家共識標注，與多款前沿MLLM及視覺品質獎勵模型進行評估。結果顯示最強系統僅在26.5%任務正確選出最佳與最差，落後專家表現。

速報

Qwen3.5 VLM 展示心象能力：多模態模型在視覺推理中「想像」中間畫面

此研究指出，大型多模態模型在解空間視覺謎題時會產生「心象」。研究團隊微調Qwen3.5VLM，讓模型從初始狀態預測解題動作序列，並觀察每步激活是否反映中間視覺狀態。結果顯示，將少量視覺token整合進思考鏈可提高解題成功率，平均從83%提升到89%。

速報

格線式空間提示提升圖表資料擷取準確度

科學圖表大規模自動擷取是文獻分析關鍵問題。研究比較高階語意提示與低階空間提示，提出在圖像上疊加座標格的做法，並與metadata-first與Chain-of-Thought方法對照。實驗顯示格線空間提示能顯著降低資料擷取誤差，提升可靠性。

深度分析

深入 Gemma 4：PLE、Shared KV Cache 與雙 RoPE 在邊緣推理的應用

Google DeepMind 在 Hugging Face 發布 Gemma 4 系列多模態模型，採 Apache 2 授權，支援文字、影像與部分音訊輸入，並以設計可在各種推理引擎和裝置上部署為目標。模型透過分層嵌入（PLE）、共享 KV 快取與雙 RoPE 配置，同時兼顧長上下文與量化效能；

深度分析

Google DeepMind 開源 Gemma 4 多模態模型：本地端與邊緣 AI 新里程碑

GoogleDeepMind推出的Gemma4系列多模態模型採Apache2開源授權，支援文字、影像與部分音訊，具長上下文與量化效能，已在多平台測試顯示31B版文字基準領先，預計提升本地端與邊緣AI部署易用性。此舉有望加速開源生態與嵌入式裝置的AI應用普及。

Gemma 4 12B 具備 Unified 架構與 16 GB 部署需求，開源多模態 AI 亮相

Cosmos 3：全方位多模態世界模型突破，統合語言、影像與行動

Granite 4.0 3B Vision：企業文件多模態模型，精準表格與圖表解析

Gemma 4 核心設計與部署路徑：PLE、共享KV與雙RoPE的實務影響

Chronicle 多模態骨幹：decoder-only Transformer 聯合預訓練文本與時間序列

Hark 獲 7 億美元 Series A，押注通用 AI 介面與專屬硬體

Gemma 4：以分層嵌入、共享 KV 快取與雙 RoPE 支援多模態與邊緣部署

多模態大型語言模型與視覺美學落差：Visual Aesthetic Benchmark (VAB) 實測報告

Qwen3.5 VLM 展示心象能力：多模態模型在視覺推理中「想像」中間畫面

格線式空間提示提升圖表資料擷取準確度

深入 Gemma 4：PLE、Shared KV Cache 與雙 RoPE 在邊緣推理的應用

Google DeepMind 開源 Gemma 4 多模態模型：本地端與邊緣 AI 新里程碑

Gemma 4 12B 具備 Unified 架構與 16 GB 部署需求，開源多模態 AI 亮相