調查深度 - Agents Report

深度分析

本研究提出 SIR-Bench 基準，以 794 案測試安全事件回應代理人調查深度。透過 OUAT 框架重現真實雲端事件，並以分流準確度、創新發現與工具使用三指標評估。結果顯示代理人達 97.1% 真陽性、73.4% 偽陽性拒絕，平均每案發現 5.67 項新證據，為未來自動化調查設定基線。