可驗證獎勵強化學習 (RLVR) 在資料與算力受限下:以 RLVR 微調 Qwen3-4B 等小型語言模型的實驗結果 在資料與運算受限的情境下,研究檢視以可驗證獎勵強化學習(RLVR)微調小型語言模型的成效。作者使用三套程序化資料集(計數、圖形推理、空間推理),控制題目複雜度與多樣性進行實驗。結果指出混合難度訓練在低資料條件下帶來最佳樣本效率,最高可達5×提升,並支援未來建立RLVR資料尺度法則。