Cosmos 3:全方位多模態世界模型突破,統合語言、影像與行動
Cosmos 3 為 NVIDIA 推出的全方位多模態世界模型,採用混合 Transformer 同時處理語言、影像、影片、音訊與行動序列。模型統合視覺語言、影片生成、世界模擬與行動決策功能,於多項任務創下新紀錄,成為實體 AI 的通用骨幹,且已以開源方式釋出。
全新多模態模型 Cosmos 3 發表
NVIDIA 於近日發表 Cosmos 3 系列模型,主打「omnimodal」世界模型,能在同一架構下同時處理語言、圖像、影片、音訊與行動序列。此模型採用混合 Transformer(mixture‑of‑transformers)設計,提供高度彈性的輸入與輸出組合,讓視覺語言、影片生成、世界模擬與行動決策等功能得以統一於單一框架。
技術亮點與評估結果
Cosmos 3 的核心在於將多種關鍵模態整合為一套可擴展的基礎模型,為實體 AI(Physical AI)提供通用背骨。研究團隊在多項理解與生成任務上測試,結果顯示 Cosmos 3 在準確度與生成品質上均刷新紀錄,證實此類全方位模型具備可擴展性與通用性。
在開源社群評比中,Cosmos 3 的後訓練模型分別在 Text‑to‑Image、Image‑to‑Video 以及機器人策略測試(RoboArena)中獲得最佳排名,顯示其在不同領域的競爭力。
開源與資源釋出
為加速實體 AI 的研究與部署,NVIDIA 以 Linux Foundation 的 OpenMDW‑1.1 授權釋出程式碼、模型檢查點、合成資料集與評測基準。相關資源可於以下連結取得:
GitHub: https://github.com/nvidia/cosmos
HuggingFace: https://huggingface.co/collections/nvidia/cosmos3
官方網站: https://research.nvidia.com/labs/cosmos-lab/cosmos3研究團隊也提供完整的技術報告與使用說明,鼓勵學術與產業界共同探索全方位多模態模型的應用前景。
延伸閱讀
- MemTier:在 OpenClaw 外掛下以分層記憶、PPO 檢索權重緩解 BM25 檢索瓶頸
- Mask2Cause:以逆向變數嵌入與可微分鄰接遮罩優化 Transformer 因果學習
- PLOT:以最佳傳輸定位神經網路中的因果變數
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。