深度分析
HiL‑Bench:以 Ask‑F1 評估 AI 代理人在資訊缺口時的求助能力
研究指出,現有代理人基準忽視資訊缺口,導致模型在需詢問時表現差勁。HiL-Bench 注入缺失資訊、曖昧與矛盾條件,測量問答精準度與召回率的 Ask‑F1。結果顯示,最先進模型的通過率從 90% 降至低於 25%,凸顯判斷缺口。此基準將促使代理人加入可驗證的求助機制,提升部署安全。
深度分析
研究指出,現有代理人基準忽視資訊缺口,導致模型在需詢問時表現差勁。HiL-Bench 注入缺失資訊、曖昧與矛盾條件,測量問答精準度與召回率的 Ask‑F1。結果顯示,最先進模型的通過率從 90% 降至低於 25%,凸顯判斷缺口。此基準將促使代理人加入可驗證的求助機制,提升部署安全。
深度分析
研究背景:現有基準忽略智慧代理在資訊不足時的求助判斷。核心做法:HiL‑Bench 以人驗證的缺資訊阻斷項測試,並以 Ask‑F1 衡量提問精度與召回率。主要結果:大型模型在缺資訊情境下表現大幅下降,且透過 Ask‑F1 強化學習微調可提升求助品質與跨領域通過率。