深度分析 從 System Harness 看編碼代理人基準的局限與改進方向 隨著編碼代理人成為主流,現有SWE‑Bench等基準仍只衡量單一模型輸出,忽視系統框架、環境與回饋訊號。研究指出同一模型在不同代理框架下成功率差距可達二十個百分點,且單一參考解答會懲罰合法替代方案。作者呼籲建立可分解元件評分、支援多樣解法的基準,以正確反映代理式軟體工程。