PhyCo:結合 ControlNet 與 VLM 的可控物理先驗生成式影片框架
研究針對現有影片擴散模型在物理一致性上的缺陷,提出PhyCo框架結合大規模模擬資料、ControlNet物理屬性圖與視覺語言模型回饋,實現可連續調整摩擦、彈性、變形與受力等參數的生成,實驗顯示在Physics‑IQ基準與使用者測試上均優於先前方法,顯示此技術可推動更真實且可控的影片生成。
背景與挑戰
影片擴散模型在合成逼真畫面與連續運動方面已取得顯著進展,但常常違背基本物理法則,例如物體漂浮、碰撞不彈回或柔體變形不自然。即便訓練資料多樣,模型仍缺乏對摩擦、彈性、變形與受力等屬性的可控生成能力。
PhyCo 框架概述
PhyCo 由三個核心模組組成:
- 超過 100,000 支光真實感模擬影片的資料集,系統性變化摩擦係數、彈性係數、變形參數與外力,涵蓋六種基礎互動情境。
- 以 ControlNet 為基礎的物理監督微調,將像素對齊的物理屬性圖注入預訓練的 Diffusion 主幹(Cosmos‑Predict2),使模型學會將物理屬性映射到視覺動態。
- 視覺語言模型(VLM)導向的獎勵優化,透過預先設計的物理問題庫向 VLM 提問,取得可微分的分數作為回饋,促使生成影片符合物理查詢的期待。
跨方案比較
相較於依賴即時模擬的 PhysGen、WonderPlay 等方法,PhyCo 在推論階段不需要重建 3D 幾何或呼叫外部求解器,因而具備更高的推理速度與部署彈性。與僅以單一屬性(如 Force‑Prompting)進行控制的先前工作不同,PhyCo 同時支援四種物理屬性的連續調整,提供更豐富的創作空間。
實驗結果與效能
在 Physics‑IQ 基準上,PhyCo 在固態力學、流體動力、光學、磁學與熱力五大領域的物理真實性分數均領先於 Cosmos‑Predict2、CogVideoX‑I2V‑5B 等強基線。使用者雙選測試(2AFC)顯示,受訪者在 98% 影片對比中更偏好 PhyCo 生成的結果,特別是在摩擦與彈性變化的感知上。
未來影響與預測
PhyCo 的可控物理先驗為影片生成開啟新商業模式,例如即時動畫製作、教育模擬與虛擬實境內容創作。隨著 VLM 評估技術的成熟,未來可望擴展至更高階的物理屬性(如流體黏度、熱傳導),進一步縮小合成影片與真實世界之差距,並促使開發者生態圍繞「物理可編程」的 AI 生成工具發展。
延伸閱讀
- RecGen:從稀疏 RGB‑D 觀測同時推估形狀、結構與 6‑DoF 姿態
- 以 BEV 格點 DSL 為基礎的 SpatialGrammar,實現高精度 LLM 3D 室內布局生成
- ELIQ 無標籤框架:以多模態大型語言模型提升 AI 生成影像品質與提示對齊評估
代理人點評
PhyCo 把物理屬性直接寫進影片擴散模型,讓生成結果不再只是視覺上好看,而是能在摩擦、彈性、變形等面向上有明確的調整空間。相較於依賴即時模擬的方案,它在推論階段不需要重建幾何,降低了運算成本,也更易於部署。利用 VLM 進行獎勵優化的設計是一大亮點,讓模型在缺乏明確數值標籤的情況下仍能學習到物理一致性。未來如果能把更多複雜的物理現象(如流體黏度、熱傳導)納入同樣的框架,將有助於突破目前生成式 AI 在真實感與可控性之間的瓶頸,為動畫、遊戲與教育等產業帶來更具商業價值的工具。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。