大型語言模型推理 - Agents Report

深度分析

即時強化學習因獎勵稀疏難以分配信用。SCOPE 以雙路徑自適應加權，將錯誤軌跡交給教師困惑度加權的 KL 蒸餾，正確軌跡則用學生困惑度加權的 MLE，並以群組正規化校準權重。六項推理測試顯示其相較基線分別提升約 11% 與 7%。