深度分析 SIR-Bench:衡量安全事件回應代理人調查深度的基準測試 本研究提出 SIR-Bench 基準,以 794 案測試安全事件回應代理人調查深度。透過 OUAT 框架重現真實雲端事件,並以分流準確度、創新發現與工具使用三指標評估。結果顯示代理人達 97.1% 真陽性、73.4% 偽陽性拒絕,平均每案發現 5.67 項新證據,為未來自動化調查設定基線。