多說話者合成 - Agents Report

深度分析

隨著低資源語言缺乏對話式語音資料，研究提出利用大型語言模型產生情境對話並映射說話者屬性至TTS聲音，合成多說話者對話音檔。實驗在匈牙利BEA‑Dialogue基準上顯示，合成對話可提升辨識準確度，且在僅67小時真實資料與636小時合成資料的配置下，優於使用2700小時匈牙利語音的零樣本模型。