talking-head-generation - Agents Report

深度分析

隨著即時互動與虛擬人需求提高,研究聚焦能長時間保持同步的音訊驅動談話頭合成。本文提出AsymK-Talker,結合核條件循環生成以維持因果一致、時間參考編碼提高視聽對齊、以及非對稱核蒸餾以抑制長期漂移。實驗顯示方法在視覺真實度與唇部同步上提升,並討論運算成本與濫用風險。