video-diffusion - Agents Report

深度分析

FreqFormer：以頻域感知注意力與頻譜路由優化長序列視訊擴散效能

長序列視訊擴散模型受限於自注意力 O(N^2) 成本，當序列達數十萬 token 時，運算與記憶體成為主要障礙。FreqFormer 提出頻域異質注意力架構：先以分離光譜變換把投影後的 token 分為低、中、高三個頻段，分別採用壓縮全域注意、結構化塊稀疏注意與局部滑窗注意，再以輕量光譜路由器根據層統計與去噪步驟動態分配注意頭。

E³C：視角對齊3D記憶與latent video diffusion實現可控的egocentric影片生成

FreqFormer：以頻域感知注意力與頻譜路由優化長序列視訊擴散效能