深度分析 以 VSM、UC 補足 ASR:為 LLM 越獄評估導入分布式衡量標準 近年大型語言模型(LLM)越獄攻擊研究習慣以「單一組態的攻擊成功率(ASR)」作為績效指標,但這種做法忽略了攻擊家族內部多個參數變體所帶來的覆蓋差異。本文介紹兩項補充指標:變異敏感度(VSM)與聯合覆蓋率(UC),前者量化最佳單一 ASR 與變體平均 ASR 的差距,後者衡量所有測試組態合併後能觸發不安全回應的提示比例。