多模態大語言模型 語義與物件級視覺證據:為 MLLM 長影片問答重構的實作與驗證 面對第一人稱長時段影片(如廚房示範)對多模態大語言模型的挑戰,研究提出一套將長片推理拆解為「語義證據」與「視覺證據」的雙層框架。離線以粗到細的 MLLM 摘要建立程序性語義庫,並以物件偵測器保存物件 bounding box 與視覺嵌入,線上根據問題做條件檢索與證據整合,選出精簡的關鍵影格供模型推理。