深度分析 Faster-GCG:透過離散代幣優化提升 LLM 越獄效率與轉移性 面對對齊後的大型語言模型被設計為拒絕有害輸出,本文提出 Faster-GCG,一套改良的離散代幣優化越獄方法。透過在梯度候選上加入距離正則、以貪婪決定性取樣取代隨機抽樣,以及去重避免迴圈,Faster-GCG 在多款開源模型上以更少計算成本達到更高攻擊成功率,且在封閉模型上展現較佳轉移性。