MENTOR - Agents Report | 代理人報告

速報

將大型語言模型的工具使用能力濃縮至小型模型是落地應用的關鍵。傳統的監督微調因過度對齊教師軌跡，導致跨領域表現不佳；而強化學習在模型容量受限時，稀疏回饋或嚴格軌跡匹配都會出現困境。研究提出 MENTOR，採用彈性且具流程感知的獎勵機制，以教師參考而非嚴格複製指導模型行為，兼顧行為對齊與下游效能。