Agents Report | 代理人報告
首頁
AR 原創專欄
代理人速報
大佬動態
爆火開源
關於本站
RL
深度分析
使 SFT 成為良好 RL 初始化:PEAR 的分布校正與 token/區塊/序列重權策略
此研究指出,單純追求監督式微調(SFT)離線成績,未必能帶來線上強化學習(RL)階段的最終提升。