CAST

深度分析

RLVR以稀疏結果獎勵提升大型語言模型推理，CAST引入非特權剪枝非對稱自教與優勢翻轉，利用答案自由自教師在令牌層調整優勢，並為全正/全錯群組賦予有界基礎優勢。實驗顯示在Qwen3系列模型上，CAST於相同預算提升Avg@16與Pass@16，證明正確性感知的令牌塑形可增強RLVR效能。

深度分析

研究指出，表格資料中把自由文本變成可分析欄位時，LLM 輸出穩定性不足會影響下游結果。CAST 以 Algorithmic Prompting 建立程序式推理骨架，並用 Thinking-before-Speaking 要求中間承諾與結構化狀態，實驗顯示能顯著提升摘要與標註的穩定性與可重現性。