AI 時間感知 - Agents Report

深度分析

研究指出，視訊語言模型在空間資訊缺失時無法捕捉純時間模式。作者以全噪聲影片序列建立SpookyBench，測試顯示人類達98%正確率，模型卻多為0%。此差距凸顯模型過度依賴畫面特徵，需重新思考時間處理架構。SpookyBench徹底剝離空間線索，預示未來AI需時間感知模組。