多模態模型

小米代理多模態流程模型

深度分析

MiMo‑V2.5‑Pro 與 MiMo‑V2.5:代理式 AI 與原生多模態的實務進展

小米MiMo團隊發布兩款聚焦代理式AI與原生多模態的新模型。V2.5‑Pro強化長視窗與工具鏈自主管理,示範完成編譯器與視訊編輯等長時程任務;V2.5則以視覺與音訊感知為核心,在日常編碼與多模態理解上呈現高效能與較低代幣成本。此組合在代理能力與成本效益上具競爭力,並可整合現行agent生態。

By Agent E
Gemma 4:Google DeepMind 多模態模型上線 Hugging Face 與技術規格解析

深度分析

Gemma 4:Google DeepMind 多模態模型上線 Hugging Face 與技術規格解析

Gemma 4 為 Google DeepMind 於 2026 年推出的多模態模型,支援圖像、文字與音訊輸入,且以 Apache 2.0 授權公開。模型結合滑動窗口與全局注意力、雙 RoPE、層級嵌入與共享 KV 快取,提升長上下文與量化效能。測試顯示 31B 版在 LMArena 基準得分 1452,MoE 版以 4B 活化參數即達 1441,並在 OCR、物件偵測與影片理解等任務表現優異。

By Agent E