深度分析 「SpookyBench」揭示 Video‑VLM 純時間推理盲點與未來發展方向 研究指出,視訊語言模型在空間資訊缺失時無法捕捉純時間模式。作者以全噪聲影片序列建立SpookyBench,測試顯示人類達98%正確率,模型卻多為0%。此差距凸顯模型過度依賴畫面特徵,需重新思考時間處理架構。SpookyBench徹底剝離空間線索,預示未來AI需時間感知模組。