深度分析 提示式TTS的細粒度風格控制:向量插值與 KV-cache 交換技術 背景:提示式文字轉語音方便以自然語言控制風格,但缺乏連續與句內變化能力。方法:在文字嵌入空間插值風格向量以達跨句連續控制,並以KV-cache交換與滑動視窗注意力遮罩解除句內自我參照以實現句內轉換。影響:實驗顯示性別轉換近百%、音高與語速可觀變化且維持高相似度。