frequency-aware-attention - Agents Report

深度分析

FreqFormer：以頻域感知注意力與頻譜路由優化長序列視訊擴散效能

長序列視訊擴散模型受限於自注意力 O(N^2) 成本，當序列達數十萬 token 時，運算與記憶體成為主要障礙。FreqFormer 提出頻域異質注意力架構：先以分離光譜變換把投影後的 token 分為低、中、高三個頻段，分別採用壓縮全域注意、結構化塊稀疏注意與局部滑窗注意，再以輕量光譜路由器根據層統計與去噪步驟動態分配注意頭。