憲法安全蒸餾 - Agents Report

深度分析

研究針對安全導向的自我蒸餾（OPSD）出現的回應縮減問題，提出兩階段的憲法安全蒸餾（COPSD）先以跨SFT冷啟動校正教師，再進行憲法條件的在政策蒸餾，實驗顯示在12項基準上提升安全與有用性的平衡，同時減少對一般推理能力的損耗。此方法亦針對跨模型、跨規模的安全通道成癮問題提供緩解。