深度分析
WebGameBench:以瀏覽器原生遊戲衡量程式碼代理的交付能力與診斷
研究以瀏覽器原生遊戲作為測試床,檢驗程式碼代理能否從結構化需求交付可執行應用。核心做法是讓代理生成、部署並由瀏覽器執行器以實際互動評分,三分等級為Excellent、Usable或Unusable。結果顯示最佳設定可達76.9%可用率但僅20.2%Excellent,顯示可玩門檻與需求完全滿足差異明顯。人在審核子集上,執行器在Usable率標準下與人類判斷大致一致。
深度分析
研究以瀏覽器原生遊戲作為測試床,檢驗程式碼代理能否從結構化需求交付可執行應用。核心做法是讓代理生成、部署並由瀏覽器執行器以實際互動評分,三分等級為Excellent、Usable或Unusable。結果顯示最佳設定可達76.9%可用率但僅20.2%Excellent,顯示可玩門檻與需求完全滿足差異明顯。人在審核子集上,執行器在Usable率標準下與人類判斷大致一致。
深度分析
本研究針對程式碼代理工作負載提出七項減少雲端 LLM Token 用量的策略,包含本機路由、提示壓縮與語意快取等。測試顯示,本機路由結合提示壓縮可節省 45‑79% 的雲端 Token,完整策略組合在檢索增強工作負載中可減少 51% 的 Token,用量。此發現對部署程式碼代理的實務具有指導價值。