大型語言模型 HealthAdminBench:大型語言模型在醫療行政工作中的電腦使用代理人效能評估 醫療行政支出逾 1 兆美元,吸引 LLM 驅動的電腦使用代理人。研究推出 HealthAdminBench 基準,模擬四種 GUI 並設計 135 項任務,分解為 1,698 個子任務。測試顯示最佳代理人僅 36.3% 任務成功,顯示技術仍未滿足實務需求。