深度分析
事件驅動步級級聯:降低電腦使用代理人推論成本並提升成功率
隨著電腦使用代理人能直接操作圖形介面推動軟體自動化,每步皆使用大型模型導致成本高。研究提出事件驅動的步級級聯,預設小模型,僅在監測器偵測到卡頓或語意漂移時升級至大型模型。實驗在OSWorld與WebArena顯示,成功率與大型模型相近,同時將大型模型使用率降低逾七成,顯著縮短執行時間與成本。
深度分析
隨著電腦使用代理人能直接操作圖形介面推動軟體自動化,每步皆使用大型模型導致成本高。研究提出事件驅動的步級級聯,預設小模型,僅在監測器偵測到卡頓或語意漂移時升級至大型模型。實驗在OSWorld與WebArena顯示,成功率與大型模型相近,同時將大型模型使用率降低逾七成,顯著縮短執行時間與成本。
大型語言模型
醫療行政支出逾 1 兆美元,吸引 LLM 驅動的電腦使用代理人。研究推出 HealthAdminBench 基準,模擬四種 GUI 並設計 135 項任務,分解為 1,698 個子任務。測試顯示最佳代理人僅 36.3% 任務成功,顯示技術仍未滿足實務需求。