深度分析 X-VC:零樣本即時語音轉換的編碼器潛在空間一鍵式技術 零樣本語音轉換因需同時兼顧高保真說話者遷移與即時推論而具挑戰。X-VC 透過雙條件聲學轉換器在神經編碼器潛在空間直接完成單步轉換,並以自適應正規化注入說話者資訊。實驗顯示其在英中測試上取得最佳即時辨識率與說話者相似度,且離線實時因子遠低於基線。