latent-recomposition - Agents Report

AST

AST：在預訓練 TTS 與流匹配架構上以潛在重組與 AWFG 實現無需微調的精準語音編輯

文本驅動的語音編輯要求在修改片段時保留說話者特性與周遭聲學脈絡。AST提出一套基於預訓練自回歸TTS與流匹配解的免訓練框架，透過潛在空間反轉取得原句流態，再以潛在重組（Latent Recomposition）選接保留區段與重合成目標內容，並以自適應弱事實引導（AWFG）在邊界處施加必要約束以避免接縫破綻。