長影片搜尋 - Agents Report

深度分析

「ExtremeWhenBench」揭示長影片時序搜尋瓶頸：檢索‑定位混合模型提升 Video‑LLM 效能

研究指出，對於超過半小時的長影片，語言模型的主要瓶頸在於搜尋而非辨識。作者推出ExtremeWhenBench基準，發現傳統影片‑LLM在長片上表現崩潰，框架式的檢索再定位方法可提升約6.7倍的mIoU，此結果暗示未來影片搜尋與內容分析需重新設計，結合檢索與生成或成主流方向。同時，研究也指出檢索階段的效能提升可直接降低影片‑LLM的運算成本。