速報 MENTOR:彈性獎勵結構提升小型語言模型工具使用能力 將大型語言模型的工具使用能力濃縮至小型模型是落地應用的關鍵。傳統的監督微調因過度對齊教師軌跡,導致跨領域表現不佳;而強化學習在模型容量受限時,稀疏回饋或嚴格軌跡匹配都會出現困境。研究提出 MENTOR,採用彈性且具流程感知的獎勵機制,以教師參考而非嚴格複製指導模型行為,兼顧行為對齊與下游效能。