強化學習驗證獎勵 - Agents Report

深度分析

RLVR以稀疏結果獎勵提升大型語言模型推理，CAST引入非特權剪枝非對稱自教與優勢翻轉，利用答案自由自教師在令牌層調整優勢，並為全正/全錯群組賦予有界基礎優勢。實驗顯示在Qwen3系列模型上，CAST於相同預算提升Avg@16與Pass@16，證明正確性感知的令牌塑形可增強RLVR效能。