llm-jailbreak - Agents Report

深度分析

面對對齊後的大型語言模型被設計為拒絕有害輸出，本文提出 Faster-GCG，一套改良的離散代幣優化越獄方法。透過在梯度候選上加入距離正則、以貪婪決定性取樣取代隨機抽樣，以及去重避免迴圈，Faster-GCG 在多款開源模型上以更少計算成本達到更高攻擊成功率，且在封閉模型上展現較佳轉移性。