代理型人工智慧 代理型人工智慧能力指標:SWE-bench、GAIA、τ-bench 等七大基準解析 面對從研究到生產部署的轉變,評估代理型人工智慧成為關鍵。本文比較七項基準,涵蓋軟體修補、自主網頁導航、多步工具使用、策略與工具互動一致性、視覺抽象推理、跨系統電腦操控與跨領域廣度,解析每項測試的能力指標與意義。結論為無單一分數可代表整體能力,須綜合不同基準並考量測試架構差異。