深度分析 SCOPE:雙路徑自適應加權的即時策略蒸餾信號校準增強 即時強化學習因獎勵稀疏難以分配信用。SCOPE 以雙路徑自適應加權,將錯誤軌跡交給教師困惑度加權的 KL 蒸餾,正確軌跡則用學生困惑度加權的 MLE,並以群組正規化校準權重。六項推理測試顯示其相較基線分別提升約 11% 與 7%。