深度分析 大型語言模型安全缺口:深層數學重構攻擊在 HarmBench 與 JailbreakBench 的表現 研究指出,將有害指令以集合論、形式邏輯或量子力學等數學形式重新編碼,可繞過八款大型語言模型的安全機制,攻擊成功率達 46% 至 56%。深層 LLM 輔助的重構方式平均成功率超過 46%,規則式編碼僅約 10%。即使 GPT-5 系列更具韌性,仍需針對數學結構開發逆向防禦。