Cosmos 3:全域式多模態世界模型突破
NVIDIA 發布 Cosmos 3 系列全域式多模態世界模型,能同時處理與產生文字、影像、影片、音訊與動作序列,採用混合 Transformer 架構,支援高度彈性的輸入輸出配置。此模型統合了視覺語言、影片生成、世界模擬與行動決策等功能,成為實體 AI 的通用骨幹。
Cosmos 3 亮相 多模態統一新里程碑
NVIDIA 於近日發表 Cosmos 3 系列,主打全域式(omnimodal)世界模型,能同時處理文字、影像、影片、音訊與動作序列,並在同一框架下進行產生。
模型採用混合 Transformer(mixture‑of‑transformers)架構,支援高度彈性的輸入與輸出組合,讓視覺語言、影片生成、世界模擬與行動決策等功能得以在同一系統內無縫銜接。
效能表現與評測結果
在多項理解與生成任務的測試中,Cosmos 3 均刷新了當前最佳成績,證明其作為可擴展、通用的實體 AI 骨幹具備足夠的實力。
根據 Artificial Analysis 的排名,Cosmos 3 的後訓練模型在開源 Text‑to‑Image 與 Image‑to‑Video 領域皆名列第一;同時在 RoboArena 的策略模型測試中亦取得最佳表現。
開源資源與授權
為加速開放研究與實務部署,NVIDIA 將程式碼、模型檔、合成資料集與評估基準以 Linux Foundation 的 OpenMDW‑1.1 授權釋出,相關資源可於以下連結取得:
https://github.com/nvidia/cosmos
https://huggingface.co/collections/nvidia/cosmos3
https://research.nvidia.com/labs/cosmos-lab/cosmos3研究團隊期望透過此開放平台,促進實體 AI 在各領域的創新與應用。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。