多模態人工智慧 - Agents Report

深度分析

Holotron-12B：結合混合狀態空間模型的高吞吐量電腦使用代理

H公司於2026年發表Holotron-12B，這是一款以NVIDIA Nemotron 為基礎、經後訓練優化的多模態電腦使用代理模型。核心採用混合狀態空間模型（SSM）結合注意力機制，針對長序列、多影像與高併發場景提升推論效率與記憶體使用。

深度分析

以影像為核心的世界模型：Runway 的多模態人工智慧路線與商業化挑戰

在語言模型主導的時代，Runway提出不同路徑：以真實世界影片與觀測資料訓練世界模型，而非僅靠文字。公司從影像生成起家，逐步擴展到能模擬物理行為的多模態系統，目標把影片智慧化為可實驗的數位雙生。若成功，影視、機器人與藥物研發等領域可能被重塑；失敗則面臨資金與巨頭競爭風險。

互動模型

Thinking Machines 推出互動模型：以多模態感知強化人機協作

前 OpenAI 技術長 Mira Murati 所創辦的 Thinking Machines 提出一套以人為中心的 AI 願景：新型「互動模型」能透過鏡頭與麥克風直接理解連續、雜訊與非結構化的人類互動，掌握停頓、打斷與語氣變化，並即時調整回應。與目前以文本提示驅動、追求完全自動化的主流路線不同，這種設計強調人機協作、個人化與可控性。

深度分析

從 GPT-3 到 GPT-5：技術演進、功能擴張與限制全解析

本研究回顧 GPT 系列自 GPT-3 起的技術演進，聚焦模型規模、少樣本預測與多模態整合等變化，指出幻覺與提示敏感等限制仍存，並預測此轉型將重塑 AI 開發與治理格局。