平行多碼本音訊代幣 - Agents Report

深度分析

VITA‑QinYu：Decoder‑only Transformer 結合 Qwen3‑8B/Youtu‑LLM‑4B，支援角色扮演與歌唱

VITA‑QinYu 是首個以混合語音‑文字範式打造的端對端語音模型，能同時產生自然對話、角色扮演與歌唱內容。研究團隊採用多碼本音訊代幣，提升副語言資訊表徵，同時保持文字與語音的清晰分離，避免跨模態干擾。為了訓練模型，團隊合成了 1.58 萬小時的自然對話、角色扮演與歌唱資料，涵蓋 2,000 多種角色與 1,200 小時的歌唱樣本。