chi-bench - Agents Report | 代理人報告

深度分析

χ-Bench提出一套高擬真醫療流程基準，模擬先前授權（PA）、利用管理（UM）與護理管理（CM）三大場景，並以20款實務應用、87個MCP工具與1,279份作業手冊作為政策依據。實驗評估30組代理框架與模型組合，最佳配置僅在單次任務上達成28%成功率，整場連續執行全流程時降至3.8%。