先驗校正 - Agents Report

深度分析

零樣本文字轉語音（TTS）能以短暫參考音檔合成未見說話者的聲音，是語音合成的關鍵技術。Chatterbox‑Flash透過將自回歸解碼器微調為區塊擴散解碼器，加入先驗校正與提前解碼排程，實現平行產生且支援即時串流。實驗顯示其音質與主流模型相當，同時降低首包延遲與實時因子。