多角色音視訊生成 - Agents Report

深度分析

近年多角色音視訊生成在唇語同步與視聽對齊已有進展。本研究提出MTAVG-Bench2.0，聚焦短劇場景，建立橫跨表演、氛圍與攝影的高階失敗分類，構建逾一萬條問答評估實例以診斷電影級表現缺陷。實驗發現頂級商用通用模型整體表現領先，卻仍難處理複雜角色表演與跨鏡頭敘事問題。