深度分析 χ-Bench:醫療長距離流程中 AI 代理的政策遵循與多角色協作評測 χ-Bench提出一套高擬真醫療流程基準,模擬先前授權(PA)、利用管理(UM)與護理管理(CM)三大場景,並以20款實務應用、87個MCP工具與1,279份作業手冊作為政策依據。實驗評估30組代理框架與模型組合,最佳配置僅在單次任務上達成28%成功率,整場連續執行全流程時降至3.8%。