深度分析
GFT 以群組優勢與動態係數校正提升大語言模型的效能與泛化
傳統上大語言模型的後訓練依賴監督式微調與強化學習,但兩者在知識注入與泛化間存在矛盾。GFT 透過群組優勢學習建立多樣回應群組並以正規化對比監督緩解獎勵稀疏,同時動態係數校正自適應限制逆概率權重,穩定優化。實驗顯示 GFT 持續優於 SFT 方法,且與後續 RL 訓練更順暢融合。
深度分析
傳統上大語言模型的後訓練依賴監督式微調與強化學習,但兩者在知識注入與泛化間存在矛盾。GFT 透過群組優勢學習建立多樣回應群組並以正規化對比監督緩解獎勵稀疏,同時動態係數校正自適應限制逆概率權重,穩定優化。實驗顯示 GFT 持續優於 SFT 方法,且與後續 RL 訓練更順暢融合。
深度分析
研究重新檢視監督式微調的層級效應,發現中層(20%‑80%)較為穩定、最上層敏感。提出只調整關鍵中間層的 Mid‑Block Efficient Tuning,於 GSM8K 測試中提升最高 10.2%。結果顯示對齊能力局部化,對未來微調與安全性平衡具重要啟示。