速報 VideoGameBench:以90年代遊戲檢驗視覺語言模型即時能力 研究團隊提出VideoGameBench,一套以10款90年代真實遊戲評測視覺語言模型(VLMs)感知、空間導航與記憶管理能力的基準。模型只取得原始畫面與高階目標與控制說明,三款遊戲保密以檢驗一般化。實驗顯示前沿模型在即時互動下多半難以超過開局,推理延遲為主要瓶頸;