SPARD:結合安全投影與關聯-多樣性取樣的有害微調防禦框架
大型語言模型在微調過程中常會喪失原本的安全對齊,且攻擊者可透過有害微調移除防護並誘發不安全行為。為此,研究提出SPARD,一個將安全投影交替優化(SPAG)與關聯-多樣性資料選取結合的防禦框架。SPAG透過在效用更新與以安全資料為基準的顯式投影間交替,將模型約束回安全域;
SPARD:以安全投影與多樣化取樣抵禦有害微調
微調大型語言模型可能削弱安全對齊,有害微調則會刻意移除防護,引發不安全行為。針對這項風險,研究團隊提出SPARD,一套結合安全投影交替優化與關聯-多樣性資料選取的防禦框架。
SPARD的核心包括兩部分。其一為SPAG(安全投影交替優化):訓練時在常規效用更新與以一組安全資料為基礎的顯式安全投影之間交替,透過投影步驟將模型參數約束回安全子空間,以強化安全行為。其二為資料選取機制:採用關聯-多樣性決定式點過程(DPP)從候選樣本中挑選精簡且多樣的安全樣本,使選出的資料同時具備任務相關性與廣泛的安全覆蓋。
在GSM8K與OpenBookQA的實驗設計中,研究團隊針對四種有害微調攻擊進行測試。結果顯示,SPARD在平均攻擊成功率上達到最低,同時保持高水準的任務準確度,整體防禦效能優於現行先進方法。研究者也已將程式碼公開,以利社群驗證與後續研究延伸。
延伸閱讀
- 結合 LSTM 狀態估計與殘差式強化學習的延遲韌性遙控架構
- LineRides:用線條與關鍵取向引導強化學習,讓 UMV 自行車型機器人掌握高動態特技
- DeMP:結合元學習與 SAC 的跨回合欺瞞路徑規劃
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。