深度分析
少樣本潛在門校準:低資源語言模型安全拒絕率提升至 71%
研究指出,多語言大型語言模型在低資源語言的安全拒絕失效,並非缺少有害表示,而是校準門檻偏移。透過少量目標語言範例重新校正高資源門檻,即可大幅提升拒絕率,同時保留指令完成能力。此方法僅需1至4筆範例即可完成校正,顯示低資源安全問題可藉現有表示修正,降低大量語料標註成本。
深度分析
研究指出,多語言大型語言模型在低資源語言的安全拒絕失效,並非缺少有害表示,而是校準門檻偏移。透過少量目標語言範例重新校正高資源門檻,即可大幅提升拒絕率,同時保留指令完成能力。此方法僅需1至4筆範例即可完成校正,顯示低資源安全問題可藉現有表示修正,降低大量語料標註成本。
深度分析
ROK-FORTRESS提出一套針對國家安全與公共安全(NSPS)的雙語、文化對抗基準,以英語—韓語與美國—韓國地緣軸為研究案例。研究透過轉化矩陣分離語言效應與地緣情境效應,包含1,235項任務、逐題二元判準與層級加權風險分(TRS)。