深度分析 場景級電影評估框架 MTAVG-Bench 2.0:多模態失敗診斷與時序定位 近年多角色音視訊生成在唇語同步與視聽對齊已有進展。本研究提出MTAVG-Bench2.0,聚焦短劇場景,建立橫跨表演、氛圍與攝影的高階失敗分類,構建逾一萬條問答評估實例以診斷電影級表現缺陷。實驗發現頂級商用通用模型整體表現領先,卻仍難處理複雜角色表演與跨鏡頭敘事問題。