深度分析 TLDR:Patch‑level 自回歸 TTS 以 CosyVoice3 與 LoRA 實現 1.8 倍推論加速 隨著編碼器式自回歸TTS產生的音訊代幣序列過長,成為效能瓶頸。研究提出TLDR,將連續代幣壓縮成Patch,使用凍結的AR背骨與LoRA進行全局建模,並以說話者條件的提取器恢復細節。實驗顯示Patch大小為4時,可將推論速度提升1.8倍、記憶體占用減少75%,而辨識錯誤率與說話者相似度僅有輕微下降。