UJEM-KL - Agents Report | 代理人報告

深度分析

本文重新檢視視覺語言模型（VLM）越獄攻擊的可轉移性，提出 UJEM-KL —— 一種在影像端進行非定向擾動的攻擊方法。作者發現拒絕回應常集中於自回歸解碼中的少數高熵決策 token；基於此，UJEM-KL 在這些位置最大化輸出熵，同時以 KL 正則化穩定低熵結構位置以維持生成品質。