TLDR - Agents Report | 代理人報告

深度分析

TLDR：Patch‑level 自回歸 TTS 以 CosyVoice3 與 LoRA 實現 1.8 倍推論加速

隨著編碼器式自回歸TTS產生的音訊代幣序列過長，成為效能瓶頸。研究提出TLDR，將連續代幣壓縮成Patch，使用凍結的AR背骨與LoRA進行全局建模，並以說話者條件的提取器恢復細節。實驗顯示Patch大小為4時，可將推論速度提升1.8倍、記憶體占用減少75%，而辨識錯誤率與說話者相似度僅有輕微下降。