監督微調 (SFT) - Agents Report

深度分析

Parametric Skill Transfer（PaST）：以技能向量補強 SFT 與 RL 的參數轉移

面對大型語言模型的知識截止問題，研究提出Parametric Skill Transfer（PaST），將在來源域由強化學習習得的推理與執行能力抽取成「技能向量」，並在目標模型完成輕量監督微調（SFT）後線性注入。PaST假定SFT與RL在參數空間上近乎正交，因此可把技能從來源域直接搬移到新知識的目標域，無需在目標域進行昂貴的RL訓練。