速報 Cyber Defense Benchmark:LLM 在 SOC 威脅獵捕上的挫敗 研究以 Cyber Defense Benchmark 評估大型語言模型在無提示 Windows 事件日誌中執行威脅獵捕的能力。以記憶體 SQLite 資料庫與 106 項真實攻擊程序模擬環境,代理透過 SQL 查詢逐步發現並標記惡意事件時戳。測試五款前沿模型,結果顯示最佳模型平均正確標記率僅 3.8%,皆未達可部署門檻。