深度分析
CAST:結合非特權剪枝與優勢翻轉的 GRPO 強化學習新方案
RLVR以稀疏結果獎勵提升大型語言模型推理,CAST引入非特權剪枝非對稱自教與優勢翻轉,利用答案自由自教師在令牌層調整優勢,並為全正/全錯群組賦予有界基礎優勢。實驗顯示在Qwen3系列模型上,CAST於相同預算提升Avg@16與Pass@16,證明正確性感知的令牌塑形可增強RLVR效能。
深度分析
RLVR以稀疏結果獎勵提升大型語言模型推理,CAST引入非特權剪枝非對稱自教與優勢翻轉,利用答案自由自教師在令牌層調整優勢,並為全正/全錯群組賦予有界基礎優勢。實驗顯示在Qwen3系列模型上,CAST於相同預算提升Avg@16與Pass@16,證明正確性感知的令牌塑形可增強RLVR效能。
深度分析
研究指出,表格資料中把自由文本變成可分析欄位時,LLM 輸出穩定性不足會影響下游結果。CAST 以 Algorithmic Prompting 建立程序式推理骨架,並用 Thinking-before-Speaking 要求中間承諾與結構化狀態,實驗顯示能顯著提升摘要與標註的穩定性與可重現性。