深度分析 UniSonate:以 Dynamic Token Injection 與 Multimodal Diffusion Transformer 統一語音、音樂與音效生成 針對語音、音樂與音效長期分裂的生成任務,UniSonate以flow‑matching與Dynamic Token Injection將非結構化音效符號化,並透過指令—內容對齊與多階段課程式訓練降低跨模態衝突,在指令式TTS與TTM上取得領先成績並展現正向遷移效應。