深度分析 少樣本潛在門校準:低資源語言模型安全拒絕率提升至 71% 研究指出,多語言大型語言模型在低資源語言的安全拒絕失效,並非缺少有害表示,而是校準門檻偏移。透過少量目標語言範例重新校正高資源門檻,即可大幅提升拒絕率,同時保留指令完成能力。此方法僅需1至4筆範例即可完成校正,顯示低資源安全問題可藉現有表示修正,降低大量語料標註成本。