多語語音克隆 - Agents Report

深度分析

X-Voice 多語無稿零樣本聲音克隆：0.4B流匹配架構與雙層語言注入

語音合成面臨跨語言參考語句依賴與推理延遲的雙重挑戰。X-Voice以0.4B流匹配模型、以IPA作統一音標表示，提出兩階段訓練來移除提示文字依賴。第一階段建立多語聲學基底，第二階段用合成提示音替代文字微調以達成無稿零樣本克隆。實驗顯示在多語可懂度與聲線相似性上可與巨量參數模型比肩，並公開語料與評測基準。