深度分析
AgentLens:以任務級 PTA 與意圖標註辨別幸運通過的過程品質
軟體工程代理人評測常以最終測試通過做二元裁定,AgentLens提出以過程為本的評估:用任務級PTA合併通過軌跡並以情境感知標注分類為探索、實作、驗證與編排,分析顯示有10.7%通過軌跡屬於幸運通過,且品質分級會改變模型比較與部署風險判斷。
深度分析
軟體工程代理人評測常以最終測試通過做二元裁定,AgentLens提出以過程為本的評估:用任務級PTA合併通過軌跡並以情境感知標注分類為探索、實作、驗證與編排,分析顯示有10.7%通過軌跡屬於幸運通過,且品質分級會改變模型比較與部署風險判斷。
速報
行動GUI代理能直接操作App介面自動化任務,卻缺少執行中與使用者的視覺溝通標準。AgentLens提出三種自適應視覺模態:Full UI、Partial UI與GenUI,並以Virtual Display允許背景執行同時選擇性覆蓋,視覺呈現會依任務調整。研究透過形成性研究與受控實驗驗證適配效果;實驗顯示85.7%受測者偏好AgentLens並獲最高可用性評分。