深度分析 CAST:結合非特權剪枝與優勢翻轉的 GRPO 強化學習新方案 RLVR以稀疏結果獎勵提升大型語言模型推理,CAST引入非特權剪枝非對稱自教與優勢翻轉,利用答案自由自教師在令牌層調整優勢,並為全正/全錯群組賦予有界基礎優勢。實驗顯示在Qwen3系列模型上,CAST於相同預算提升Avg@16與Pass@16,證明正確性感知的令牌塑形可增強RLVR效能。