以敘事背景與多步推理蒸餾新知 提升大型語言模型更新能力
本研究針對大型語言模型在推理過程中即時更新知識的挑戰,提出一套以敘事背景呈現新資訊、利用自生成多跳問題訓練多步推理、以及透過知識蒸餾讓學生模型內化教師的推理行為的訓練策略。實驗結果顯示,採用此方法的模型能在需要結合多項新事實的複雜問題上顯著提升表現,證明新知的整合不僅是記憶,更是推理過程的一部分。
背景與挑戰
大型語言模型在面對新資訊時,往往只能記憶單一事實,缺乏將新知整合進既有推理框架的能力。這限制了模型在需要跨情境運用新知的任務表現。
核心訓練策略
研究者將知識更新視為推理問題,提出三大原則:
- 以連貫的敘事背景呈現新事實,說明其與既有知識的關係。
- 利用模型自行生成的多跳問題,迫使模型在多步推理中使用新資訊。
- 透過知識蒸餾,讓學生模型在未直接接觸新資訊的情況下,學習教師模型的推理行為。
實驗結果
在需要結合多項新事實的挑戰性問答上,採用上述策略訓練的模型相較於傳統記憶式更新方法,正確率提升顯著,顯示新知能被有效內化並在推理過程中靈活運用。
意涵
此工作證明,將知識更新與多步推理結合,可提升大型語言模型的實務應用能力,為未來持續學習與動態知識整合提供新方向。
延伸閱讀
- 「ToolSense」:揭露參數化工具檢索在真實查詢下的性能缺口與內化指標
- 環境工程全景:大型語言模型代理的環境建模、合成與評估新框架
- T2‑GRPO:結合環境回合獎勵與軌跡獎勵的多回合強化學習框架於失智照護對話
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。