深度分析 利用世界回饋即時終止 RLHF 工作:EvalStop 設計與實驗成果 隨著雲端大型語言模型微調平台大量使用RLHF,傳統排程忽視評分與真實品質的落差。研究提出EvalStop,利用世界回饋評分連續下降k次即提前終止工作,保留最佳檢查點。此方法對比依賴訓練損失的SLAQ,避免資源被跑分占用,同時兼顧跨租戶公平。