大型語言模型 - Agents Report

深度分析

SFT‑GRPO 資料重疊對後訓練超參數的影響：深度實驗與結果分析

研究重新審視 SFT 後接 GRPO 的訓練流程，探討資料重疊率對 Lean 4 自動形式化的影響。實驗以 Qwen3‑8B 為基礎，分別測試 0%、30% 與 100% 重疊情境，結果顯示低重疊能提升編譯與語意正確率，0% 重疊時 GRPO 在 Gaokao 基準上較 SFT 提升 10.4 個百分點。完全重疊則使兩階段效益持平，凸顯資料分離的重要性。