速報 Cosmos 3:全方位多模態世界模型突破,統合語言、影像與行動 Cosmos 3 為 NVIDIA 推出的全方位多模態世界模型,採用混合 Transformer 同時處理語言、影像、影片、音訊與行動序列。模型統合視覺語言、影片生成、世界模擬與行動決策功能,於多項任務創下新紀錄,成為實體 AI 的通用骨幹,且已以開源方式釋出。