LLM 自動滲透測試一致性實測:400 次對同一易受攻擊目標的比較
本研究對大型語言模型(LLM)發起的大規模自動滲透測試進行實證分析:在相同蜜罐環境(包含 OWASP Juice Shop 與兩個其他易受攻擊服務)上,對 4 款模型各執行 100 次、共 400 次試驗。實驗固定提示、協調器與目標,衡量模型在重複試驗下的攻擊一致性、失敗模式與首次成功時間。
LLM 自動滲透測試一致性實測(400 次)
一項針對大型語言模型(LLM)對單一易受攻擊目標的實驗揭示,模型間的攻擊一致性差異明顯。研究在相同蜜罐(含 OWASP Juice Shop 與兩個其他易受攻擊服務)上,對 4 款模型各執行 100 次,自動化滲透測試,且固定提示、協調器與目標。
主要發現包括:Claude 完整利用 61/100;Gemini 85/100;GPT-4o-mini 56/100(共部署 98 種攻擊策略);qwen2.5-coder:14b 25/100。失敗模式具模型特色:Claude 因上游 API 中斷(包含多次 HTTP 529 overloaded_error)導致 39 次執行被截斷;qwen 多為過早完成;GPT-4o-mini 則出現迭代配額耗盡。跨服務憑證重用僅在保留較多對話歷史時明顯(qwen 57%、GPT-4o-mini 49%、某些雲端模型在 5 次交流視窗為 0%)。統計檢定顯示跨模型利用率差異顯著(p<0.001),且部分比較呈現大效果量(例如 qwen 與 Gemini 在 SQL 注入率上的差異)。首波利用通常落在 15–30 秒的實際時間範圍內。
總結:在相同設定下,LLM 的自動攻擊表現並非一致,失敗原因與成功率明顯受模型設計與運行環境(例如 API 可用性與回應截斷)影響,對用於自動化滲透測試或紅隊演練的 LLM 選型與監控具有實務意義。
延伸閱讀
- Convergent AI Agent Framework (CAAF):以 Harness、UAI 與 RAD 建構決定性代理
- 意向性更新於流式強化學習:以輸出導向步長控制 TD 與策略梯度
- 去噪遞迴模型(DRM)與短窗多步訓練:提升遞迴變壓器的穩定性與推論一致性
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。