多模態理解 - Agents Report

深度分析

場景級電影評估框架 MTAVG-Bench 2.0：多模態失敗診斷與時序定位

近年多角色音視訊生成在唇語同步與視聽對齊已有進展。本研究提出MTAVG-Bench2.0，聚焦短劇場景，建立橫跨表演、氛圍與攝影的高階失敗分類，構建逾一萬條問答評估實例以診斷電影級表現缺陷。實驗發現頂級商用通用模型整體表現領先，卻仍難處理複雜角色表演與跨鏡頭敘事問題。

深度分析

VEN-VL：結合MKE、HTE（MoE路由）與SIP，提升視覺令牌的容量與密度

面對多模態模型在部署端的效能與準確性矛盾,VEN-VL提出enrich then compact原則:先以多視角知識集成(MKE)豐富視覺容量,再以階層式MoE路由(HTE)逐層濃縮強化資訊密度,並以結構資訊保留(SIP)的重建監督守護語義。結果是在僅保留少量凝縮令牌下仍顯著提升複雜視覺理解任務的表現。

深度分析

以端到端稀疏採樣實作長篇 PDF 多模態理解 — PDF‑WuKong 方法與評測

PDF‑WuKong 提出一種面向長篇 PDF（如學術論文）的多模態大模型架構，核心在於將文件解析成交錯的文字段落與圖像，並透過一個端到端可訓練的稀疏採樣器（sparse sampler）同時對文字與圖像嵌入做相似度檢索，挑出與使用者查詢最相關的段落或圖表作為證據，然後交給大語言模型產生回答。