監督式微調 - Agents Report

深度分析

傳統上大語言模型的後訓練依賴監督式微調與強化學習，但兩者在知識注入與泛化間存在矛盾。GFT 透過群組優勢學習建立多樣回應群組並以正規化對比監督緩解獎勵稀疏，同時動態係數校正自適應限制逆概率權重，穩定優化。實驗顯示 GFT 持續優於 SFT 方法，且與後續 RL 訓練更順暢融合。