On‑Policy Distillation - Agents Report

深度分析

大型語言模型的後訓常仰賴監督微調（SFT）後再透過強化學習類型流程強化推理能力，其中 On‑Policy Distillation（OPD）以密集逐字優勢信號提供高品質監督，但需要持續運行教師推理服務，造成基礎建設門檻。