深度分析 「ExtremeWhenBench」揭示長影片時序搜尋瓶頸:檢索‑定位混合模型提升 Video‑LLM 效能 研究指出,對於超過半小時的長影片,語言模型的主要瓶頸在於搜尋而非辨識。作者推出ExtremeWhenBench基準,發現傳統影片‑LLM在長片上表現崩潰,框架式的檢索再定位方法可提升約6.7倍的mIoU,此結果暗示未來影片搜尋與內容分析需重新設計,結合檢索與生成或成主流方向。同時,研究也指出檢索階段的效能提升可直接降低影片‑LLM的運算成本。