深度分析 FreqFormer:以頻域感知注意力與頻譜路由優化長序列視訊擴散效能 長序列視訊擴散模型受限於自注意力 O(N^2) 成本,當序列達數十萬 token 時,運算與記憶體成為主要障礙。FreqFormer 提出頻域異質注意力架構:先以分離光譜變換把投影後的 token 分為低、中、高三個頻段,分別採用壓縮全域注意、結構化塊稀疏注意與局部滑窗注意,再以輕量光譜路由器根據層統計與去噪步驟動態分配注意頭。