深度分析 審議對齊與 BoN 抽樣提升大型語言模型推論安全性 隨著大型語言模型廣泛採用拒絕訓練,安全性提升卻仍受限於淺層對齊方法。研究提出深度審議對齊,利用更強推理模型蒸餾安全性,並引入 BoN 抽樣將不安全行為歸因回基礎模型。實驗顯示在多項安全基準上攻擊成功率平均下降 28% 至 35%,且在 RL 微調後仍保持效益。