深度分析 WebGameBench:以瀏覽器原生遊戲衡量程式碼代理的交付能力與診斷 研究以瀏覽器原生遊戲作為測試床,檢驗程式碼代理能否從結構化需求交付可執行應用。核心做法是讓代理生成、部署並由瀏覽器執行器以實際互動評分,三分等級為Excellent、Usable或Unusable。結果顯示最佳設定可達76.9%可用率但僅20.2%Excellent,顯示可玩門檻與需求完全滿足差異明顯。人在審核子集上,執行器在Usable率標準下與人類判斷大致一致。