強化學習 - Agents Report

深度分析

近年以可驗證獎勵的強化學習（RLVR）在提升大型語言模型單一路徑準確度上成效明顯，但常見模式銳化導致樣本覆蓋不足。本文介紹SAGE框架，藉由在reverse-KL的錨分布上加入可控的引導函數q(x,y)，在保留穩定性的同時有系統地擴展經驗支持（empirical support）。