深度分析 Mistral 的 Voxtral TTS:自回歸語義引擎與 flow-matching 聲學模型實現 3 秒短樣本多語聲音克隆 語音合成長久受限於「表達力落差」:能把句子念清楚,卻難以保留說話者個性與情感。Mistral 推出的 Voxtral TTS 採取混合架構——自回歸解決長程語意與說話一致性,flow-matching 處理每幀的聲學紋理與情感色彩,並搭配自訓的音訊編碼器(Voxtral Codec)。