資安研究 - Agents Report

速報

本研究對大型語言模型（LLM）發起的大規模自動滲透測試進行實證分析：在相同蜜罐環境（包含 OWASP Juice Shop 與兩個其他易受攻擊服務）上，對 4 款模型各執行 100 次、共 400 次試驗。實驗固定提示、協調器與目標，衡量模型在重複試驗下的攻擊一致性、失敗模式與首次成功時間。