深度分析
UniSD:結合EMA教師、詞元級對比與多教師一致性的自我蒸餾框架
隨著大型語言模型需針對新任務調適,研究提出 UniSD 統一自我蒸餾框架;它整合多教師一致性、EMA 教師、詞元對比、特徵匹配與發散剪裁等機制,並在六項基準與多個模型上展現穩定提升,驗證自我蒸餾可作為無外部強教師的實用適配途徑。同時分析效能與計算成本的取捨,提出按訊號可信度分配計算的設計建議。
深度分析
隨著大型語言模型需針對新任務調適,研究提出 UniSD 統一自我蒸餾框架;它整合多教師一致性、EMA 教師、詞元對比、特徵匹配與發散剪裁等機制,並在六項基準與多個模型上展現穩定提升,驗證自我蒸餾可作為無外部強教師的實用適配途徑。同時分析效能與計算成本的取捨,提出按訊號可信度分配計算的設計建議。
深度分析
研究背景:長鏈推理模型需具備多種認知技能。核心技術:SkillFactory 在監督式微調階段使用模型自產樣本重新排列,形成「銀色」訓練資料,進而自我蒸餾以學習驗證、回溯等技能。主要結果:此方法提升模型在 RL 後的任務泛化與跨域穩健性,且不依賴更大模型的蒸餾。