深度分析 TRL v1.0:Hugging Face 的通用後訓練庫,支援 SFT、DPO 與 GRPO 擴展 Hugging Face 發布 TRL v1.0,將多年研究代碼演化為穩定的後訓練(post-training)程式庫。TRL 集合超過七十五種後訓練方法,採用「穩定核心+實驗層」並存的設計,透過刻意縮限抽象、偏好具體實作與可升級的實驗 API,降低下游破壞風險。