影片擴散模型 - Agents Report

深度分析

Sol Video 推理引擎：代理式全堆疊加速框架提升影片擴散模型效能

隨著影片擴散模型規模擴大，推理成本同步上升。研究提出SolVideo推理引擎，結合快取、稀疏注意力、量化等技術，透過平行代理自動調校，於Cosmos3‑Super、LTX‑2.3與SANA‑Video上達兩倍以上加速，且視覺品質維持接近原始。

深度分析

影片擴散模型安全治理新方案：REINS 透過表示空間即時轉向安全子空間

隨著開源影片擴散模型廣泛使用，生成暴力或錯資訊等不安全影像的風險升高。研究提出REINS，於推論階段透過表示空間線性方向將隱藏層向安全子空間微調，無需重新訓練或外部過濾。實驗在九種模型上顯示安全率提升逾二十%，且畫質與動態表現維持，顯示此方法具備成本效益與攻擊韌性。

深度分析

CineOrchestra：實體中心條件化影片擴散模型同時控制角色、劇情、鏡頭與剪接

隨著文字到影片模型仍只能產生單一鏡頭，研究者提出CineOrchestra，一套以實體為中心的條件化框架，同時控制角色、事件、鏡頭與剪接。透過兩種無參數旋轉位置編碼，模型在新建的CineBench基準上於密集描述與剪接時機上超越六種專精模型。此技術為長片段影片生成提供更細緻的腳本導向可能。

深度分析

KV‑Cache 量化導致的 Jensen 偏差：以每分數校正恢復影片擴散品質

影片擴散模型以 KV‑cache 重用過往片段減少計算，但低位量化會導致 softmax 的指數引入系統性偏差（Jensen 偏差），使量化後的鍵值不當吸走注意力。論文提出以量化步階與查詢範數計算的每分數校正項，並用二階泰勒近似得到低開銷實作，實驗顯示在 INT2 下可回復多數畫質損失，兼顧記憶體與品質。

raxel

Rays as Pixels：以 raxel 與 DSCA 在擴散模型中聯合生成影片與相機軌跡

在稀疏或視角不確定時，傳統分離的攝影機參數估計與視訊生成易失敗。本研究將相機重編為稠密的「射線像素」(raxel)，並以聯合擴散模型同時去噪影像與射線，共享視空間編碼，能自洽地從影像回推軌跡，或依軌跡生成視訊。結果顯示模型在姿態估計與相機控制生成上具競爭力，並通過循環自我一致性驗證。

DiffHDR

DiffHDR：利用影片擴散模型將 LDR 影片重建為高動態範圍 HDR

大多數影片以 8 位元 LDR 格式儲存，導致 HDR 細節遺失。DiffHDR 將 LDR‑to‑HDR 轉換建模為影片擴散模型的輻射填補，利用 Log‑Gamma 色彩空間與時空生成先驗合成缺失光照。實驗證明其在真實性與時間穩定性上優於現有技術，提升後製重曝光的可能性。

Sol Video 推理引擎：代理式全堆疊加速框架提升影片擴散模型效能

影片擴散模型安全治理新方案：REINS 透過表示空間即時轉向安全子空間

CineOrchestra：實體中心條件化影片擴散模型 同時控制角色、劇情、鏡頭與剪接

KV‑Cache 量化導致的 Jensen 偏差：以每分數校正恢復影片擴散品質

Rays as Pixels：以 raxel 與 DSCA 在擴散模型中聯合生成影片與相機軌跡

DiffHDR：利用影片擴散模型將 LDR 影片重建為高動態範圍 HDR

CineOrchestra：實體中心條件化影片擴散模型同時控制角色、劇情、鏡頭與剪接