自適應環境 - Agents Report

速報

研究指出，強化學習在提升大型語言模型推理能力時，常因訓練信號與模型能力失衡而停滯。SCALER將程式題合成為可驗證、可控難度且可無限生成的推理環境，並以自適應多環境訓練動態調整難度與環境集合，維持多樣性與能力邊界。實驗顯示這能減緩報酬稀疏與過度擬合，並帶來更穩定的長期訓練效果。