可驗證獎勵強化學習 (RLVR) - Agents Report

可驗證獎勵強化學習 (RLVR)

在資料與運算受限的情境下，研究檢視以可驗證獎勵強化學習（RLVR）微調小型語言模型的成效。作者使用三套程序化資料集（計數、圖形推理、空間推理），控制題目複雜度與多樣性進行實驗。結果指出混合難度訓練在低資料條件下帶來最佳樣本效率，最高可達5×提升，並支援未來建立RLVR資料尺度法則。