深度分析 TRL v1.0 正式上線:支援 LoRA/QLoRA、DPO、GRPO 等 75 種後訓練技術的穩定庫 HuggingFace推出TRLv1.0,從研究原型轉型為可在生產環境使用的穩定庫,內建超過75種後訓練方法,設計兼顧實驗與穩定性,讓開發者快速嘗試新演算法,同時降低部署風險。每月下載量突破300萬,社群貢獻者逾1.7萬人,未來將持續支援非同步GRPO、知識蒸餾與MoE,讓大型模型訓練更具彈性。