UC - Agents Report | 代理人報告

深度分析

以 VSM、UC 補足 ASR：為 LLM 越獄評估導入分布式衡量標準

近年大型語言模型（LLM）越獄攻擊研究習慣以「單一組態的攻擊成功率（ASR）」作為績效指標，但這種做法忽略了攻擊家族內部多個參數變體所帶來的覆蓋差異。本文介紹兩項補充指標：變異敏感度（VSM）與聯合覆蓋率（UC），前者量化最佳單一 ASR 與變體平均 ASR 的差距，後者衡量所有測試組態合併後能觸發不安全回應的提示比例。