dynamic-token-injection - Agents Report

深度分析

針對語音、音樂與音效長期分裂的生成任務，UniSonate以flow‑matching與Dynamic Token Injection將非結構化音效符號化，並透過指令—內容對齊與多階段課程式訓練降低跨模態衝突，在指令式TTS與TTM上取得領先成績並展現正向遷移效應。