深度分析 ACE‑Bench:執行自由的 Azure SDK 程式碼正確性基準 本研究針對大型語言模型在 Azure SDK 使用上的正確性提出 ACE‑Bench,一種免執行、快速判定通過與否的基準。它將官方文件範例轉為自足任務,透過正規表達式與 LLM 評審檢查 API 使用與工作流,降低測試成本並提升可重現性。實驗顯示多模型在檢索增強下表現提升,且不同模型差異顯著。