SkillFactory - Agents Report

深度分析

研究背景：長鏈推理模型需具備多種認知技能。核心技術：SkillFactory 在監督式微調階段使用模型自產樣本重新排列，形成「銀色」訓練資料，進而自我蒸餾以學習驗證、回溯等技能。主要結果：此方法提升模型在 RL 後的任務泛化與跨域穩健性，且不依賴更大模型的蒸餾。