Voxtral TTS - Agents Report

深度分析

語音合成長久受限於「表達力落差」：能把句子念清楚，卻難以保留說話者個性與情感。Mistral 推出的 Voxtral TTS 採取混合架構——自回歸解決長程語意與說話一致性，flow-matching 處理每幀的聲學紋理與情感色彩，並搭配自訓的音訊編碼器（Voxtral Codec）。