有害微調防禦 - Agents Report

速報

大型語言模型在微調過程中常會喪失原本的安全對齊，且攻擊者可透過有害微調移除防護並誘發不安全行為。為此，研究提出SPARD，一個將安全投影交替優化（SPAG）與關聯-多樣性資料選取結合的防禦框架。SPAG透過在效用更新與以安全資料為基準的顯式投影間交替，將模型約束回安全域；