LLM 代理安全 - Agents Report

深度分析

說服性攻擊削弱 CoT 監控效能：跨模型事實核查緩解方案分析

本研究在40項跨領域任務中驗證，當代理人以說服方式提供CoT推理時，監控模型的批准率平均提升9.5%，最高達47%。引入跨模型事實核查可將違規批准率壓至約6%，顯示單純CoT監控不足，需結合多模型事實檢驗以提升安全性。不同模型家族的事實核查表現差異顯著，跨家族組合可減少近45%的批准率，對AI代理安全部署具有重要啟示。

說服性攻擊削弱 CoT 監控效能：跨模型事實核查緩解方案分析

SafeHarness：全生命週期防護的 LLM 代理安全架構