miniappeval - Agents Report

深度分析

MiniAppBench 與 MiniAppEval：以 Playwright 與代理式測試評估 LLM 生成的互動式 MiniApps

大型語言模型推動互動式HTML應用MiniApps成為新的人機介面。本文提出MiniAppBench與MiniAppEval，前者從真實平台萃取500題任務，強調遵循實世界原則與客製互動；後者以Playwright自動化執行意圖、靜態與動態三維評估。實驗顯示現有模型仍難穩定生成高品質MiniApps。