深度分析
LLM 與條件化 TTS 結合提升低資源語言對話式語音辨識效能
隨著低資源語言缺乏對話式語音資料,研究提出利用大型語言模型產生情境對話並映射說話者屬性至TTS聲音,合成多說話者對話音檔。實驗在匈牙利BEA‑Dialogue基準上顯示,合成對話可提升辨識準確度,且在僅67小時真實資料與636小時合成資料的配置下,優於使用2700小時匈牙利語音的零樣本模型。
深度分析
隨著低資源語言缺乏對話式語音資料,研究提出利用大型語言模型產生情境對話並映射說話者屬性至TTS聲音,合成多說話者對話音檔。實驗在匈牙利BEA‑Dialogue基準上顯示,合成對話可提升辨識準確度,且在僅67小時真實資料與636小時合成資料的配置下,優於使用2700小時匈牙利語音的零樣本模型。
深度分析
研究探討語音克隆是否真能保留說話者身分。實驗以三款主流克隆模型比較原音與複製音,並以人工評註聲音的權威感、溫暖度與自然度。結果顯示克隆音較原音更具權威與信任感,且出現口音與風格的同質化,可能影響身分辨識與使用者行為。研究指出應提升透明度與監管設計以減輕風險。
Login.gov
美國總務管理局旗下技術轉型服務(TTS)由與所謂「政府效率部」有關聯的人士臨時接任,負責的重點是推動 Login.gov 的成長與升級。官方內部路線圖提出將整合行動駕照與護照作為驗證方式,並強調打擊詐欺。此舉在朝向集中化身分管理的同時,也引發部分現職與前職公務員對隱私、監控與中央資料庫化的擔憂;
TTS
AI 語音合成雖自然,但常在長文合成時出現「說話者漂移」現象,導致聲音特徵逐漸偏移。最新研究提出一套自動化偵測框架,利用餘弦相似度分析與 LLM 推理,將語音一致性檢查轉化為二元分類任務,有效解決合成語音在長篇或互動式場景中的不一致問題。