深度分析 X-Voice 多語無稿零樣本聲音克隆:0.4B流匹配架構與雙層語言注入 語音合成面臨跨語言參考語句依賴與推理延遲的雙重挑戰。X-Voice以0.4B流匹配模型、以IPA作統一音標表示,提出兩階段訓練來移除提示文字依賴。第一階段建立多語聲學基底,第二階段用合成提示音替代文字微調以達成無稿零樣本克隆。實驗顯示在多語可懂度與聲線相似性上可與巨量參數模型比肩,並公開語料與評測基準。