深度分析
Motif‑Video 2B:透過 Shared Cross‑Attention 與 DDT 解碼,在微預算下優化文字到視訊表現
Motif‑Video 2B 提出在有限資料與算力下仍能達到高品質文字到視訊生成的方法。作者主張問題不只在於參數或資料量,而是模型如何分配容量:將文字條件對齊、時序一致性與細節復原在架構上分工,採用三階段骨幹與共享交叉注意力(Shared Cross‑Attention),並配合動態令牌路由與早期表示對齊的微預算訓練配方。
深度分析
Motif‑Video 2B 提出在有限資料與算力下仍能達到高品質文字到視訊生成的方法。作者主張問題不只在於參數或資料量,而是模型如何分配容量:將文字條件對齊、時序一致性與細節復原在架構上分工,採用三階段骨幹與共享交叉注意力(Shared Cross‑Attention),並配合動態令牌路由與早期表示對齊的微預算訓練配方。
深度分析
研究指出現有文字到影片生成常忽略文化差異。本研究提出MAVEN,將提示拆成「人物、動作、地點」三個專責代理人,並比較單一代理、序列與平行多代理。實驗用243個提示與972支影片,平行多代理在文化相關性上表現最佳。研究結論指出,平行專責能在保持影像品質與時間一致性下,加強文化指涉表達。