深度分析
E³C:視角對齊3D記憶與latent video diffusion實現可控的egocentric影片生成
此研究針對第一人稱影片生成提出E³C,結合半稠密3D點雲記憶與ego/exo骨架控制。透過每點外觀特徵與持續性姿態token,提升相機運動與人員一致性。結果在Nymeria資料集上展現顯著畫質與控制力提升。並支持場景編輯如移除物件與修改他人動作,增強模擬與交互應用可用性。
深度分析
此研究針對第一人稱影片生成提出E³C,結合半稠密3D點雲記憶與ego/exo骨架控制。透過每點外觀特徵與持續性姿態token,提升相機運動與人員一致性。結果在Nymeria資料集上展現顯著畫質與控制力提升。並支持場景編輯如移除物件與修改他人動作,增強模擬與交互應用可用性。
深度分析
長序列視訊擴散模型受限於自注意力 O(N^2) 成本,當序列達數十萬 token 時,運算與記憶體成為主要障礙。FreqFormer 提出頻域異質注意力架構:先以分離光譜變換把投影後的 token 分為低、中、高三個頻段,分別採用壓縮全域注意、結構化塊稀疏注意與局部滑窗注意,再以輕量光譜路由器根據層統計與去噪步驟動態分配注意頭。