後訓練 - Agents Report | 代理人報告

深度分析

HuggingFace推出TRLv1.0，從研究原型轉型為可在生產環境使用的穩定庫，內建超過75種後訓練方法，設計兼顧實驗與穩定性，讓開發者快速嘗試新演算法，同時降低部署風險。每月下載量突破300萬，社群貢獻者逾1.7萬人，未來將持續支援非同步GRPO、知識蒸餾與MoE，讓大型模型訓練更具彈性。