深度分析 以 EvalStop 抑制 RLHF 獎勵過度最佳化的早期停止機制 隨著雲端大型語言模型微調平台大量使用RLHF,獎勵模型與實際品質之間會出現過度最佳化問題。EvalStop透過觀測世界回饋的評分連續下降,於k次後自動終止工作並保留最佳檢查點,於實驗中達到近98%精確率與22%計算節省,顯示排程層面的早期停止能有效抑制獎勵駭客並提升資源利用率。