text-to-video - Agents Report

深度分析

Motif‑Video 2B：透過 Shared Cross‑Attention 與 DDT 解碼，在微預算下優化文字到視訊表現

Motif‑Video 2B 提出在有限資料與算力下仍能達到高品質文字到視訊生成的方法。作者主張問題不只在於參數或資料量，而是模型如何分配容量：將文字條件對齊、時序一致性與細節復原在架構上分工，採用三階段骨幹與共享交叉注意力（Shared Cross‑Attention），並配合動態令牌路由與早期表示對齊的微預算訓練配方。

Motif‑Video 2B：透過 Shared Cross‑Attention 與 DDT 解碼，在微預算下優化文字到視訊表現

MAVEN（Multi-Agent Video ENrichment）：分維提示與平行協調改善 text-to-video 文化呈現