VidCRAFT3:跨因素互動的可控影像到影片生成框架
VidCRAFT3 提出一套統一且彈性的影像到影片 (I2V) 生成系統,能同時控制相機運動、物件移動與光源方向,並明確考量視點、幾何與照明之間的物理耦合。系統結合 Image2Cloud 提供的 3D 幾何先驗、ObjMotionNet 的多尺度物件運動特徵,以及空間三重注意力變換器實現一致的重新照明。
研究背景與挑戰
可控影像到影片 (I2V) 生成旨在將單張參考影像轉換成符合使用者指定條件的影片。相機運動、物件移動與光源方向的精確控制對於高真實感的影片至關重要,然而既有方法往往將這三個因素獨立處理,忽略了視點、幾何與照明在動態場景中的相互耦合,常出現陰影錯位或透視漂移等問題。
VidCRAFT3 架構概述
VidCRAFT3 以統一的框架顯式建模幾何、運動與照明之間的跨因素交互,支援獨立或聯合的控制需求。核心模組包括:
- Image2Cloud:提供明確的 3D 幾何先驗,確保相機運動的精準度。
- ObjMotionNet:將稀疏的物件軌跡編碼為多尺度運動特徵,引導真實的物件運動。
- Spatial Triple-Attention Transformer:透過光照交叉注意力將光源方向資訊整合至特徵中,實現一致的重新照明。
資料與訓練策略
為克服聯合標註資料稀缺的問題,研究團隊自行建構 VideoLightingDirection (VLD) 資料集,提供每一幀的精確光源方向標註。隨後採用三階段漸進式訓練流程,先獨立學習相機與物件運動,再加入光照控制,使模型在缺乏完整聯合標註的情況下仍能穩健學習。
實驗結果
在多樣化的測試場景中,VidCRAFT3 在控制精度與視覺一致性上均超越現有最先進方法,特別是在同時變更相機、物件與光源時仍能保持陰影與透視的一致性,證明其在高品質影片合成上的實用性。
延伸閱讀
- Intuit TurboTax 實作案例:利用 LLM 與 DSL 將 900 頁稅務法案轉化為程式碼
- LLM 驅動的去匿名化:研究揭露 AI 能大規模精準識別社交媒體化名用戶
- LLM 驅動的網路故障排除:利用 RAG 與微調構建 RCA 知識庫以提升網路韌性
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。