速報 SPARD:結合安全投影與關聯-多樣性取樣的有害微調防禦框架 大型語言模型在微調過程中常會喪失原本的安全對齊,且攻擊者可透過有害微調移除防護並誘發不安全行為。為此,研究提出SPARD,一個將安全投影交替優化(SPAG)與關聯-多樣性資料選取結合的防禦框架。SPAG透過在效用更新與以安全資料為基準的顯式投影間交替,將模型約束回安全域;