離線教師一致性 - Agents Report

深度分析

在大型語言模型後訓練中，標準在政策蒸餾需持續運作教師伺服器，成本高。Lightning OPD 透過離線預算教師對數機率，確保教師一致性，消除即時伺服器需求。實驗證明，此法在 AIME 2024 測驗上以 30 GPU 小時取得 69.9% 成績，速度提升約 4 倍，降低研究門檻。