窗口注意力 WAND:窗口式注意力與知識蒸餾提升自回歸文字轉語音效能 自回歸文字轉語音模型因全域自注意力在長序列上成本高。WAND 透過全局與局部窗口注意力結合,並以課程式學習與知識蒸餾穩定微調。實驗顯示在保持音質的前提下,快取記憶體減少逾 66%,推理延遲幾乎與序列長度無關。