深度分析 Rethinking Generalization in Reasoning SFT: 探討監督式微調的推理泛化能力與條件 研究挑戰了 SFT 僅能記憶的傳統認知,指出推理 SFT 在特定條件下具備跨領域泛化能力。透過分析最佳化動態、數據品質與模型能力,研究發現強大模型能內化推理模式,且性能呈現先降後升的趨勢,但提醒推理能力的增長可能以犧牲安全性為代價。