深度分析
Lightning OPD:以離線 On‑Policy Distillation 維持教師一致性並降低後訓基礎建設負擔
大型語言模型的後訓常仰賴監督微調(SFT)後再透過強化學習類型流程強化推理能力,其中 On‑Policy Distillation(OPD)以密集逐字優勢信號提供高品質監督,但需要持續運行教師推理服務,造成基礎建設門檻。
深度分析
大型語言模型的後訓常仰賴監督微調(SFT)後再透過強化學習類型流程強化推理能力,其中 On‑Policy Distillation(OPD)以密集逐字優勢信號提供高品質監督,但需要持續運行教師推理服務,造成基礎建設門檻。
深度分析
在大型語言模型後訓練中,標準在政策蒸餾需持續運作教師伺服器,成本高。Lightning OPD 透過離線預算教師對數機率,確保教師一致性,消除即時伺服器需求。實驗證明,此法在 AIME 2024 測驗上以 30 GPU 小時取得 69.9% 成績,速度提升約 4 倍,降低研究門檻。