安全性評估 - Agents Report

深度分析

研究背景：現有基準忽略智慧代理在資訊不足時的求助判斷。核心做法：HiL‑Bench 以人驗證的缺資訊阻斷項測試，並以 Ask‑F1 衡量提問精度與召回率。主要結果：大型模型在缺資訊情境下表現大幅下降，且透過 Ask‑F1 強化學習微調可提升求助品質與跨領域通過率。