HD‑EPIC‑VQA - Agents Report

多模態大語言模型

語義與物件級視覺證據：為 MLLM 長影片問答重構的實作與驗證

面對第一人稱長時段影片（如廚房示範）對多模態大語言模型的挑戰，研究提出一套將長片推理拆解為「語義證據」與「視覺證據」的雙層框架。離線以粗到細的 MLLM 摘要建立程序性語義庫，並以物件偵測器保存物件 bounding box 與視覺嵌入，線上根據問題做條件檢索與證據整合，選出精簡的關鍵影格供模型推理。