瀏覽器原生遊戲 - Agents Report

深度分析

WebGameBench：以瀏覽器原生遊戲衡量程式碼代理的交付能力與診斷

研究以瀏覽器原生遊戲作為測試床，檢驗程式碼代理能否從結構化需求交付可執行應用。核心做法是讓代理生成、部署並由瀏覽器執行器以實際互動評分，三分等級為Excellent、Usable或Unusable。結果顯示最佳設定可達76.9%可用率但僅20.2%Excellent，顯示可玩門檻與需求完全滿足差異明顯。人在審核子集上，執行器在Usable率標準下與人類判斷大致一致。