SCALER:可擴展自適應推理環境,強化大型語言模型的強化學習表現

研究指出,強化學習在提升大型語言模型推理能力時,常因訓練信號與模型能力失衡而停滯。SCALER將程式題合成為可驗證、可控難度且可無限生成的推理環境,並以自適應多環境訓練動態調整難度與環境集合,維持多樣性與能力邊界。實驗顯示這能減緩報酬稀疏與過度擬合,並帶來更穩定的長期訓練效果。

可擴展自適應推理環境

SCALER:維持學習信號的自適應推理環境

SCALER是一套可擴展的自適應推理訓練環境,旨在讓強化學習持續為大型語言模型提供有效的學習信號。當任務難度與模型能力脫節,或訓練被少數題型主導時,傳統強化學習常出現進展停滯。

核心包含兩個元件。首先是一個可擴展的合成流水線,將真實程式設計題轉換為可驗證、可控難度且可無限生成的推理實例,確保訓練過程保有強正確性驗證;其次是自適應多環境訓練策略,動態調整實例難度並策展活躍環境集合,以追蹤模型能力前緣並維持分佈多樣性。

這種協同自適應避免了報酬稀疏問題,降低模型對窄化題型的過度擬合,並支持訓練在更長時間尺度上的持續改進。作者在多項推理基準上的實驗顯示,與固定資料集的強化學習基準相比,SCALER能帶來更穩定且長期的表現提升,對利用強化學習強化人工智慧推理能力的研究具實際參考價值。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more