VideoGameBench:以90年代遊戲檢驗視覺語言模型即時能力
研究團隊提出VideoGameBench,一套以10款90年代真實遊戲評測視覺語言模型(VLMs)感知、空間導航與記憶管理能力的基準。模型只取得原始畫面與高階目標與控制說明,三款遊戲保密以檢驗一般化。實驗顯示前沿模型在即時互動下多半難以超過開局,推理延遲為主要瓶頸;
VideoGameBench用老遊戲壓測視覺語言模型
最新研究推出VideoGameBench,讓視覺語言模型以真實90年代遊戲做即時操作測試。模型只能看到原始畫面,並取得高階目標與控制說明,其中三款遊戲保密,用以檢驗一般化能力。
研究指出,前沿模型在實時互動下多半難以超過開局,推理延遲是主要瓶頸。為評估延遲影響,作者另設VideoGameBench Lite,在該設定下遊戲會在模型作出動作前暫停。
最佳表現者為Gemini 2.5 Pro與Claude 3.7 Sonnet,但兩者僅完成整體0.48%與Lite設定下1.6%的遊戲進度。作者希望此基準能喚起對感知、導航與記憶管理等人類直覺能力的進一步研究,並促使社群改進即時推理與一般化策略。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。