自蒸餾 - Agents Report | 代理人報告

速報

程序記憶蒸餾（PMD）提升強化學習驗證效能

強化學習驗證回饋常只用於單回合更新，缺乏跨回合資訊。研究者提出程序記憶蒸餾（PMD），將跨回合的驗證訊號整理為可重用的程序記憶，並在訓練中蒸餾至模型權重。實驗顯示 PMD 在兩大基準上分別提升 3.8‑5.5% 與 7.9‑13.6%，凍結任一環節會使效能下降逾 10%。

深度分析

SGCD：在長程工具使用中以信用蒸餾增強策略梯度表現

長程工具使用的強化學習常依賴結果驗證，但傳統策略梯度在長序列上只能提供粗糙的代幣層級獎勵。研究提出以兄弟樣本為基礎的信用蒸餾（SGCD），透過動態抽樣和外部大型語言模型產出步驟信用參考，重新加權 GRPO 代幣優勢。實驗在 AppWorld 與 τ³‑airline 基準上顯示 SGCD 提升至 45.6%／27.0% 及 pass@1 0.602，遠超單純自蒸餾退化表現。

深度分析

Reinforcement Learning with Self‑Distillation（RLSD）：結合可驗證回饋的推理模型訓練策略

企業與學界提出 RLSD（Reinforcement Learning with Self-Distillation），旨在解決推理模型訓練中常見的回饋稀疏與自蒸餾資訊洩漏問題。RLSD 將可驗證環境回饋用來決定學習方向（強化或懲罰），同時把模型自身作為老師來分配逐詞的權重和更新幅度，達到方向可靠但幅度細緻的雙重效果。