深度分析 Chatterbox‑Flash 採用先驗校正的即時串流零樣本 TTS 解決方案 零樣本文字轉語音(TTS)能以短暫參考音檔合成未見說話者的聲音,是語音合成的關鍵技術。Chatterbox‑Flash透過將自回歸解碼器微調為區塊擴散解碼器,加入先驗校正與提前解碼排程,實現平行產生且支援即時串流。實驗顯示其音質與主流模型相當,同時降低首包延遲與實時因子。