深度分析 以SAGE改造KL錨點:在RLVR中提升多步推理的探索與覆蓋率 近年以可驗證獎勵的強化學習(RLVR)在提升大型語言模型單一路徑準確度上成效明顯,但常見模式銳化導致樣本覆蓋不足。本文介紹SAGE框架,藉由在reverse-KL的錨分布上加入可控的引導函數q(x,y),在保留穩定性的同時有系統地擴展經驗支持(empirical support)。