深度分析 Motif‑Video 2B:透過 Shared Cross‑Attention 與 DDT 解碼,在微預算下優化文字到視訊表現 Motif‑Video 2B 提出在有限資料與算力下仍能達到高品質文字到視訊生成的方法。作者主張問題不只在於參數或資料量,而是模型如何分配容量:將文字條件對齊、時序一致性與細節復原在架構上分工,採用三階段骨幹與共享交叉注意力(Shared Cross‑Attention),並配合動態令牌路由與早期表示對齊的微預算訓練配方。