速報 SCALER:可擴展自適應推理環境,強化大型語言模型的強化學習表現 研究指出,強化學習在提升大型語言模型推理能力時,常因訓練信號與模型能力失衡而停滯。SCALER將程式題合成為可驗證、可控難度且可無限生成的推理環境,並以自適應多環境訓練動態調整難度與環境集合,維持多樣性與能力邊界。實驗顯示這能減緩報酬稀疏與過度擬合,並帶來更穩定的長期訓練效果。