Webscale‑RL - Agents Report

深度分析

Webscale‑RL：自動化資料管線提升強化學習資料規模至預訓練等級

大型語言模型依賴海量文字資料訓練，導致推理與訓練間的落差。研究者開發 Webscale‑RL 管線，將預訓練文件自動轉成上百萬問答對，形成 120 萬筆、跨 9 領域的資料集。實驗證明此資料集可使 RL 訓練效能提升，達到相同表現時所需 token 數減少至原先的千分之一，為 RL 大規模化提供新方向。