深度分析 DiagEval:以軌跡為條件的 GUI 代理序列診斷方法 隨著大型語言模型驅動的軟體從片段走向完整應用,單純靜態檢查不足以驗證互動正確性。DiagEval 提出一套軌跡條件化的後失敗診斷流程:在初始 GUI 代理嘗試失敗後,不盲目重試,而是解析失敗軌跡、定位重啟節點,生成針對性探針分支並執行,以跨分支證據聚合形成內部屬性分數來判定失敗來源(代理執行錯誤或系統缺陷)。