HealthAdminBench - Agents Report

大型語言模型

醫療行政支出逾 1 兆美元，吸引 LLM 驅動的電腦使用代理人。研究推出 HealthAdminBench 基準，模擬四種 GUI 並設計 135 項任務，分解為 1,698 個子任務。測試顯示最佳代理人僅 36.3% 任務成功，顯示技術仍未滿足實務需求。