多語言安全 - Agents Report

深度分析

研究指出，多語言大型語言模型在低資源語言的安全拒絕失效，並非缺少有害表示，而是校準門檻偏移。透過少量目標語言範例重新校正高資源門檻，即可大幅提升拒絕率，同時保留指令完成能力。此方法僅需1至4筆範例即可完成校正，顯示低資源安全問題可藉現有表示修正，降低大量語料標註成本。