深度分析 VITA‑QinYu:Decoder‑only Transformer 結合 Qwen3‑8B/Youtu‑LLM‑4B,支援角色扮演與歌唱 VITA‑QinYu 是首個以混合語音‑文字範式打造的端對端語音模型,能同時產生自然對話、角色扮演與歌唱內容。研究團隊採用多碼本音訊代幣,提升副語言資訊表徵,同時保持文字與語音的清晰分離,避免跨模態干擾。為了訓練模型,團隊合成了 1.58 萬小時的自然對話、角色扮演與歌唱資料,涵蓋 2,000 多種角色與 1,200 小時的歌唱樣本。