深度分析 UJEM-KL:以熵最大化與 KL 散度正則化發動非定向多模態越獄 本文重新檢視視覺語言模型(VLM)越獄攻擊的可轉移性,提出 UJEM-KL —— 一種在影像端進行非定向擾動的攻擊方法。作者發現拒絕回應常集中於自回歸解碼中的少數高熵決策 token;基於此,UJEM-KL 在這些位置最大化輸出熵,同時以 KL 正則化穩定低熵結構位置以維持生成品質。