深度分析 以DAG評估LLM代理人:The Amazing Agent Race揭示網頁導航短板 本研究觀察到現有LLM工具使用基準多為短線性步驟。提出TheAmazingAgentRace,將題組設計為DAG結構,要求代理人從維基導航、分叉多路API調用再合併結果,並以終點正確率、途經率、路障完成率三指標分解錯誤來源。實驗顯示最佳配置僅約37%正確率,導航失誤為主因。