Cosmos3

全模態 Cosmos3 融合示範平台系統

速報

Cosmos 3 全方位世界模型：統合語言、影像、視訊、音訊與行動的突破

NVIDIA 推出 Cosmos 3 全方位世界模型，能同時處理文字、影像、視訊、音訊與動作序列，採用混合變換器架構，支援彈性輸入輸出配置。實驗證明其在多項任務上創新表現，並在開源文字轉影像、影像轉視訊以及機器人政策測試中獲最高排名，推動實體 AI 研究與部署。

Cosmos3多模態世界模型

速報

Cosmos 3：全方位多模態世界模型突破，統合語言、影像與行動

Cosmos 3 為 NVIDIA 推出的全方位多模態世界模型，採用混合 Transformer 同時處理語言、影像、影片、音訊與行動序列。模型統合視覺語言、影片生成、世界模擬與行動決策功能，於多項任務創下新紀錄，成為實體 AI 的通用骨幹，且已以開源方式釋出。