深度分析 全雙工虛擬人生成技術:對話音訊感知高斯核的突破 隨著音訊驅動影片生成在單向說話領域取得突破,研究者提出具對話音訊感知核的全雙工虛擬人技術,利用多頭高斯核引入時間尺度偏置,同時處理說話與聆聽音訊流,並以全新 VoxHear 資料集驗證。實驗證明此法在唇形同步與語意回應上均優於既有方案,為互動式數位人開闢新路。