TTS - Agents Report | 代理人報告

深度分析

隨著低資源語言缺乏對話式語音資料，研究提出利用大型語言模型產生情境對話並映射說話者屬性至TTS聲音，合成多說話者對話音檔。實驗在匈牙利BEA‑Dialogue基準上顯示，合成對話可提升辨識準確度，且在僅67小時真實資料與636小時合成資料的配置下，優於使用2700小時匈牙利語音的零樣本模型。

深度分析

研究探討語音克隆是否真能保留說話者身分。實驗以三款主流克隆模型比較原音與複製音，並以人工評註聲音的權威感、溫暖度與自然度。結果顯示克隆音較原音更具權威與信任感，且出現口音與風格的同質化，可能影響身分辨識與使用者行為。研究指出應提升透明度與監管設計以減輕風險。

Login.gov

美國總務管理局旗下技術轉型服務（TTS）由與所謂「政府效率部」有關聯的人士臨時接任，負責的重點是推動 Login.gov 的成長與升級。官方內部路線圖提出將整合行動駕照與護照作為驗證方式，並強調打擊詐欺。此舉在朝向集中化身分管理的同時，也引發部分現職與前職公務員對隱私、監控與中央資料庫化的擔憂；

TTS

AI 語音合成雖自然，但常在長文合成時出現「說話者漂移」現象，導致聲音特徵逐漸偏移。最新研究提出一套自動化偵測框架，利用餘弦相似度分析與 LLM 推理，將語音一致性檢查轉化為二元分類任務，有效解決合成語音在長篇或互動式場景中的不一致問題。