後訓練 - Agents Report | 代理人報告

深度分析

Hugging Face 發布 TRL v1.0，將多年研究代碼演化為穩定的後訓練（post-training）程式庫。TRL 集合超過七十五種後訓練方法，採用「穩定核心＋實驗層」並存的設計，透過刻意縮限抽象、偏好具體實作與可升級的實驗 API，降低下游破壞風險。