AI 代理人 - Agents Report

深度分析

隨著編碼代理人成為主流，現有SWE‑Bench等基準仍只衡量單一模型輸出，忽視系統框架、環境與回饋訊號。研究指出同一模型在不同代理框架下成功率差距可達二十個百分點，且單一參考解答會懲罰合法替代方案。作者呼籲建立可分解元件評分、支援多樣解法的基準，以正確反映代理式軟體工程。