Azure SDK - Agents Report | 代理人報告

深度分析

本研究針對大型語言模型在 Azure SDK 使用上的正確性提出 ACE‑Bench，一種免執行、快速判定通過與否的基準。它將官方文件範例轉為自足任務，透過正規表達式與 LLM 評審檢查 API 使用與工作流，降低測試成本並提升可重現性。實驗顯示多模型在檢索增強下表現提升，且不同模型差異顯著。