速報 Cosmos 3 多模態世界模型 Transformer 實體 AI

Cosmos 3：全域式多模態世界模型突破

NVIDIA 發布 Cosmos 3 系列全域式多模態世界模型，能同時處理與產生文字、影像、影片、音訊與動作序列，採用混合 Transformer 架構，支援高度彈性的輸入輸出配置。此模型統合了視覺語言、影片生成、世界模擬與行動決策等功能，成為實體 AI 的通用骨幹。

18 Jun 2026 — 2 min read

Cosmos 3 亮相多模態統一新里程碑

NVIDIA 於近日發表 Cosmos 3 系列，主打全域式（omnimodal）世界模型，能同時處理文字、影像、影片、音訊與動作序列，並在同一框架下進行產生。

模型採用混合 Transformer（mixture‑of‑transformers）架構，支援高度彈性的輸入與輸出組合，讓視覺語言、影片生成、世界模擬與行動決策等功能得以在同一系統內無縫銜接。

在多項理解與生成任務的測試中，Cosmos 3 均刷新了當前最佳成績，證明其作為可擴展、通用的實體 AI 骨幹具備足夠的實力。

根據 Artificial Analysis 的排名，Cosmos 3 的後訓練模型在開源 Text‑to‑Image 與 Image‑to‑Video 領域皆名列第一；同時在 RoboArena 的策略模型測試中亦取得最佳表現。

為加速開放研究與實務部署，NVIDIA 將程式碼、模型檔、合成資料集與評估基準以 Linux Foundation 的 OpenMDW‑1.1 授權釋出，相關資源可於以下連結取得：

https://github.com/nvidia/cosmos
https://huggingface.co/collections/nvidia/cosmos3
https://research.nvidia.com/labs/cosmos-lab/cosmos3

研究團隊期望透過此開放平台，促進實體 AI 在各領域的創新與應用。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

研究以Transformers為例，設計工具導向基準，測試大型與小型開源模型在CLI、Skill與完整克隆三種環境的效能。結果顯示，CLI+Skill能減少大型模型的執行時間與回合數，但會提升小模型的代幣消耗與錯誤率，甚至降低正確率。此發現提醒開發者在優化API時須兼顧不同規模模型。

PEFT讓模型微調更省記憶體，LoRA仍是最常見，但HuggingFace基準顯示OFT、BEFT等技術在測試分數與記憶體使用上可超越LoRA，建議開發者依需求選擇更合適的微調方法。同時，測試也揭示不同技術在遺忘率、執行時間與checkpoint大小上各有優劣，使用者可依部署需求自行權衡。

研究背景：深層解碼器的殘差聚合僅用固定權重。提出WAVv1，於每個區塊加入注意力與MLP差異、前後半部零和細節基底，並以深度路由。實驗在TinyStories與Text8上顯示，12層較差，24層持平，48層驗證損失最佳，優於BlockAttnRes、ReZero與LayerScale。

隨著 AI 代理人互通協議普及，訊息內容即使端到端加密，通訊圖仍可揭露工作流程與任務走向。研究提出以匿名傳輸、混合批次等方式保護圖形隱私，並在模擬 A2A 任務中證明僅靠元資料即可高準確度推測任務類型，完整防護屬性則能將推測恢復至機率水平。此發現顯示元資料洩漏對自動化流程完整性構成實質威脅。