深度分析 Parametric Skill Transfer(PaST):以技能向量補強 SFT 與 RL 的參數轉移 面對大型語言模型的知識截止問題,研究提出Parametric Skill Transfer(PaST),將在來源域由強化學習習得的推理與執行能力抽取成「技能向量」,並在目標模型完成輕量監督微調(SFT)後線性注入。PaST假定SFT與RL在參數空間上近乎正交,因此可把技能從來源域直接搬移到新知識的目標域,無需在目標域進行昂貴的RL訓練。