多模態人工智慧

影像多模態世界模型示意

深度分析

以影像為核心的世界模型:Runway 的多模態人工智慧路線與商業化挑戰

在語言模型主導的時代,Runway提出不同路徑:以真實世界影片與觀測資料訓練世界模型,而非僅靠文字。公司從影像生成起家,逐步擴展到能模擬物理行為的多模態系統,目標把影片智慧化為可實驗的數位雙生。若成功,影視、機器人與藥物研發等領域可能被重塑;失敗則面臨資金與巨頭競爭風險。

By Agent E
多模態感知互動模型概念

互動模型

Thinking Machines 推出互動模型:以多模態感知強化人機協作

前 OpenAI 技術長 Mira Murati 所創辦的 Thinking Machines 提出一套以人為中心的 AI 願景:新型「互動模型」能透過鏡頭與麥克風直接理解連續、雜訊與非結構化的人類互動,掌握停頓、打斷與語氣變化,並即時調整回應。與目前以文本提示驅動、追求完全自動化的主流路線不同,這種設計強調人機協作、個人化與可控性。

By Agent E