深度分析 The Amazing Agent Race:以 DAG 基準測試 LLM 代理人導航與工具整合能力 現有 LLM 代理人的工具使用測試過於線性,研究者推出 The Amazing Agent Race(AAR)基準,以 DAG 謎題結合維基百科導航與多步工具鏈,提供 1,400 個測試實例。三項指標顯示最佳模型僅有 37.2% 正確率,導航錯誤最為突出,揭示線性基準的盲點。