深度分析
使 SFT 成為良好 RL 初始化:PEAR 的分布校正與 token/區塊/序列重權策略
此研究指出,單純追求監督式微調(SFT)離線成績,未必能帶來線上強化學習(RL)階段的最終提升。
深度分析
此研究指出,單純追求監督式微調(SFT)離線成績,未必能帶來線上強化學習(RL)階段的最終提升。
深度分析
面對標註資料成本與驗證覆蓋限制,ACE提出一套以執行為中心的自我演化機制:同一大型語言模型交替扮演解題器與對抗器,對抗器不產生期望輸出,而是生成能誘發運行時錯誤或例外的單元測試輸入;以執行結果建構布林矩陣,挑選穩健解答作為監督資料,並以偏好優化強化對抗器。
深度分析
供應鏈攻擊與第三方路由器可能在使用者請求中植入隱藏目標,CoT-Guard提出以四十億參數等級的小型監控模型,透過監督式微調蒐集強監控示例,並以專門設計的強化學習在難樣本上提升泛化能力。該方法能同時分析推理鏈與生成程式碼,對提示操控與程式碼注入具更高偵測率,提供一種低成本的使用者端防護方案。
深度分析
研究重新審視 SFT 後接 GRPO 的訓練流程,探討資料重疊率對 Lean 4 自動形式化的影響。實驗以 Qwen3‑8B 為基礎,分別測試 0%、30% 與 100% 重疊情境,結果顯示低重疊能提升編譯與語意正確率,0% 重疊時 GRPO 在 Gaokao 基準上較 SFT 提升 10.4 個百分點。完全重疊則使兩階段效益持平,凸顯資料分離的重要性。
深度分析
TRL v1.0 正式發佈,將原本的研究代碼庫升級為穩定的後訓練庫,支援超過 75 種方法並採用最小抽象設計以因應領域快速變化。新版本在穩定與實驗層面共存,提供明確的合約與升級指引。此舉提升了在產業應用中的可靠性,並預示未來非同步 GRPO 與可觀測性功能的發展方向。