SOC基準 - Agents Report | 代理人報告

速報

Cyber Defense Benchmark：LLM 在 SOC 威脅獵捕上的挫敗

研究以 Cyber Defense Benchmark 評估大型語言模型在無提示 Windows 事件日誌中執行威脅獵捕的能力。以記憶體 SQLite 資料庫與 106 項真實攻擊程序模擬環境，代理透過 SQL 查詢逐步發現並標記惡意事件時戳。測試五款前沿模型，結果顯示最佳模型平均正確標記率僅 3.8%，皆未達可部署門檻。