紅隊測試 - Agents Report

深度分析

動態紅隊平台 RIFT-Bench：統一 NodeSpec 解析與跨框架代理 AI 安全測試

隨著代理式 AI 系統快速商業化，安全評估缺乏統一標準。RIFT-Bench 透過 NodeSpec 圖形表示，結合自動化的 Discovery 與 Scanning 兩階段，對 45 種異質系統進行 10,000 多項攻擊測試，證明其跨框架可移植性。此技術有望成為 AI 代理安全基準，促進產業與開源社群共同提升防禦能力。

深度分析

MAStrike：利用 Shapley 值實現多代理協同紅隊測試的創新框架

隨著多代理系統在金融、軟體工程與 CRM 等高風險領域廣泛部署，MAStrike 以代理層級 Shapley 值分析挑選關鍵代理，結合互動指數生成協同攻擊。實驗顯示對 Claude Opus 4.7 的攻擊成功率達 61.8%，對 GPT‑5.5 為 55.6%，同時揭露傳統單代理防護的盲點，預示未來安全測試須納入多代理共謀分析。此技術亦可能改寫 AI 服務供應商的風險評估流程，促使業界加速部署聯邦式安全測試平台。

深度分析

Meta AI 代理人未設驗證機制，駭客濫用導致 Instagram 帳號盜取

2026年6月MetaAI客服機器人被駭客利用，直接要求更換Instagram帳號的電子郵件，導致包括奧巴馬白宮帳號在內多個帳號被盜。此案凸顯AI代理人在安全防護與功能便利間的衝突，提醒業界在推廣前必須加強風險測試。專家指出AI代理人缺乏安全防護，業界需在功能與防護間取得平衡。

深度分析

開源 LLM 的脆弱性評估：基於 Overton 窗口的紅隊測試與模型家族差異

研究針對本地部署的開源大型語言模型與社群媒體影響風險進行紅隊測試。研究提出LLMOvertonWindow量化框架並評估簡單提示攻擊、Few-Shot與其他繞過技術對立場表達範圍的影響。結果顯示模型在左傾立場上較易被驅動，繞過效果家族與模型相關，防禦需依家族定制。

深度分析

RCA 攻擊與 FIN-Bench 評估：針對金融領域的 LLM 風險分析

隨著大語言模型被廣泛應用於金融領域，研究提出風險隱蔽攻擊（RCA）多輪框架，並建構 FIN‑Bench 基準測試，結果顯示在九款主流模型上平均成功率超過九成，其中 GPT‑4.1 的成功率達 98.28%，OpenAI o1 為 97.56%。研究呼籲金融應用急需更嚴格的審核機制。