自我蒸餾 - Agents Report

深度分析

長程工具使用的強化學習因策略梯度訊號稀疏受限，研究提出SGCD透過動態抽樣產生成功與失敗的兄妹roll‑out，並用外部大型語言模型生成步驟式信用參考，調整token級別信用權重，使AppWorldTGC提升至45.6%，τ³‑airlinepass@1改至0.602。

深度分析

隨著大型語言模型需針對新任務調適，研究提出 UniSD 統一自我蒸餾框架；它整合多教師一致性、EMA 教師、詞元對比、特徵匹配與發散剪裁等機制，並在六項基準與多個模型上展現穩定提升，驗證自我蒸餾可作為無外部強教師的實用適配途徑。同時分析效能與計算成本的取捨，提出按訊號可信度分配計算的設計建議。

深度分析

研究背景：長鏈推理模型需具備多種認知技能。核心技術：SkillFactory 在監督式微調階段使用模型自產樣本重新排列，形成「銀色」訓練資料，進而自我蒸餾以學習驗證、回溯等技能。主要結果：此方法提升模型在 RL 後的任務泛化與跨域穩健性，且不依賴更大模型的蒸餾。