SWE-Bench Pro - Agents Report

深度分析

研究指出，現有代理人基準忽視資訊缺口，導致模型在需詢問時表現差勁。HiL-Bench 注入缺失資訊、曖昧與矛盾條件，測量問答精準度與召回率的 Ask‑F1。結果顯示，最先進模型的通過率從 90% 降至低於 25%，凸顯判斷缺口。此基準將促使代理人加入可驗證的求助機制，提升部署安全。