深度分析
MiMo‑V2.5‑Pro 與 MiMo‑V2.5:代理式 AI 與原生多模態的實務進展
小米MiMo團隊發布兩款聚焦代理式AI與原生多模態的新模型。V2.5‑Pro強化長視窗與工具鏈自主管理,示範完成編譯器與視訊編輯等長時程任務;V2.5則以視覺與音訊感知為核心,在日常編碼與多模態理解上呈現高效能與較低代幣成本。此組合在代理能力與成本效益上具競爭力,並可整合現行agent生態。
深度分析
小米MiMo團隊發布兩款聚焦代理式AI與原生多模態的新模型。V2.5‑Pro強化長視窗與工具鏈自主管理,示範完成編譯器與視訊編輯等長時程任務;V2.5則以視覺與音訊感知為核心,在日常編碼與多模態理解上呈現高效能與較低代幣成本。此組合在代理能力與成本效益上具競爭力,並可整合現行agent生態。
深度分析
DeepMind推出Gemma4,帶來可在裝置端運行的多模態模型。它支援影像、文字與語音輸入,採用每層嵌入與共享KV快取、雙RoPE與滑動窗+全域注意力設計,兼顧長上下文與量化效率;測試顯示大型密集模型在文字基準得分領先,MoE在較低活化參數下接近同級表現。
深度分析
阿里巴巴 Qwen 團隊發布 Qwen3.6-35B-A3B,採用稀疏 MoE 結構,總參數 350 億但推論僅活化 30 億,結合線性注意力與 GQA 減少記憶體負擔。此模型在 SWE‑bench Verified 與 Terminal‑Bench 2.0 等基準取得領先成績,同時支援影像與影片理解,顯示出高效能與多模態能力。
深度分析
科學AI代理人缺乏前沿評估,COMPOSITE‑STEM 基於 70 項跨領域任務,結合精準與標準化評分,並以 LLM 充當評審。測試四個模型最高僅 21% 成績,顯示現有能力仍受限。此基準開源以推動後續研究。
MolmoAct
MolmoAct 以多視角影像進行深度感知與軌跡推理,透過專屬提示引導模型產出機器人動作。教學示範安裝、載入與推論流程,證明模型能在自然語言指令下完成空間推理與動作預測,提升機器人視覺任務效能。
深度分析
Gemma 4 為 Google DeepMind 於 2026 年推出的多模態模型,支援圖像、文字與音訊輸入,且以 Apache 2.0 授權公開。模型結合滑動窗口與全局注意力、雙 RoPE、層級嵌入與共享 KV 快取,提升長上下文與量化效能。測試顯示 31B 版在 LMArena 基準得分 1452,MoE 版以 4B 活化參數即達 1441,並在 OCR、物件偵測與影片理解等任務表現優異。