深度分析 MiniAppBench 與 MiniAppEval:以 Playwright 與代理式測試評估 LLM 生成的互動式 MiniApps 大型語言模型推動互動式HTML應用MiniApps成為新的人機介面。本文提出MiniAppBench與MiniAppEval,前者從真實平台萃取500題任務,強調遵循實世界原則與客製互動;後者以Playwright自動化執行意圖、靜態與動態三維評估。實驗顯示現有模型仍難穩定生成高品質MiniApps。