對話音訊感知高斯核 - Agents Report

深度分析

隨著音訊驅動影片生成在單向說話領域取得突破，研究者提出具對話音訊感知核的全雙工虛擬人技術，利用多頭高斯核引入時間尺度偏置，同時處理說話與聆聽音訊流，並以全新 VoxHear 資料集驗證。實驗證明此法在唇形同步與語意回應上均優於既有方案，為互動式數位人開闢新路。