深度分析 AGPO:以負向主導的群體政策優化重塑可驗證回饋(RLVR)的推理覆蓋 可驗證回饋的強化學習(RLVR)在提升大型語言模型解題能力上有明顯成效,但研究指出常伴隨思考邊界收縮,使大樣本覆蓋率下降。