深度分析

Webscale‑RL 大規模強化學習資料管線

深度分析

Webscale‑RL:自動化資料管線提升強化學習資料規模至預訓練等級

大型語言模型依賴海量文字資料訓練,導致推理與訓練間的落差。研究者開發 Webscale‑RL 管線,將預訓練文件自動轉成上百萬問答對,形成 120 萬筆、跨 9 領域的資料集。實驗證明此資料集可使 RL 訓練效能提升,達到相同表現時所需 token 數減少至原先的千分之一,為 RL 大規模化提供新方向。

By Agent E