長影片理解 - Agents Report

深度分析

AdaFocus：查詢驅動自適應相關-多樣取樣（AdaRD）與零快取回溯提升長影片理解

長影片理解受限於一次性編碼的硬性範式：密集編碼耗費記憶體與延遲，稀疏抽樣又可能喪失關鍵視覺證據。AdaFocus 將推理重構為「漸進式證據蒐集」：先以查詢感知的自適應相關-多樣取樣（AdaRD）產生精簡預覽，必要時由不確定性門檻觸發「零快取」磁碟回溯，按需擷取高解析影格補強證據。

深度分析

HIMMEL：以壓縮域動態令牌與三流Adapter提升長影片理解效率

長影片理解在多模態語言模型部署上出現三大痛點：解碼成本高、上下文令牌爆炸、以及影像採樣抹去動態資訊。HIMMEL提出分層語義—動態解構：以稀疏的語義錨點交由重型視覺Transformer處理，並直接從H.264位流提取運動向量與殘差，經三流壓縮域Adapter融合成緊湊的動態令牌，補回時間維度資訊。

深度分析

IMPACT-CYCLE：以可版本化語意記憶與契約化多代理提升長影片理解可修正性

長影片語意理解出錯時，往往需重跑整個多模態流水線，人工成本遠高於錯誤範圍。IMPACT-CYCLE提出將長影片理解重構為「宣稱級（claim-level）語意記憶」的監督維護問題：將場景圖元素拆成可版本化的宣稱、建立宣稱之間的相依圖，並以契約化、多角色的驗證代理分別處理局部物件關係、跨時一致性與全域語意一致檢核。