MENTOR:彈性獎勵結構提升小型語言模型工具使用能力
將大型語言模型的工具使用能力濃縮至小型模型是落地應用的關鍵。傳統的監督微調因過度對齊教師軌跡,導致跨領域表現不佳;而強化學習在模型容量受限時,稀疏回饋或嚴格軌跡匹配都會出現困境。研究提出 MENTOR,採用彈性且具流程感知的獎勵機制,以教師參考而非嚴格複製指導模型行為,兼顧行為對齊與下游效能。
大型語言模型具備強大的工具使用能力,但要將這些能力搬移到容量較小的模型上仍是實務上的挑戰。傳統的監督式微調(SFT)因為緊貼教師的固定軌跡,導致在未見過的領域(OOD)表現不佳。
相較之下,強化學習(RL)提供了以結果回饋為導向的訓練方式,但小模型的容量限制使得稀疏的結果獎勵難以提供足夠指引,若要求嚴格的軌跡匹配則會過度限制模型的靈活度。
MENTOR 方法概述
為了在容量受限的情況下取得平衡,研究團隊提出 MENTOR(Memory‑Enhanced Neural Tool‑use Optimized Reward)。該方法不再強迫模型完整複製教師的每一步操作,而是以教師提供的參考資訊作為彈性獎勵的依據,讓模型在遵循工具使用流程的同時,仍保有探索與調整的空間。
實驗與結果
研究在多個可執行工具基準上進行測試,涵蓋不同類型的指令與環境。結果顯示,MENTOR 在跨領域(OOD)工具使用任務上的成功率顯著高於傳統的 SFT 以及嚴格的 RL 基線。這證明在可驗證的工具使用環境中,彈性的行為對齊策略比硬性軌跡複製更能提升小模型的適應能力。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。