強化學習 - Agents Report

深度分析

CORE：以概念導向強化學習縮小定義—應用落差於數學推理

大型語言模型在數學題上常出現能背出定義卻無法正確應用概念的落差。CORE（Concept-Oriented REinforcement）提出以人工驗證的教科書概念—題目對齊資料為核心，透過自動生成概念對齊小測、在生成階段注入簡短概念提示、以及在訓練中採用軌跡替換或KL正則化三種機制，將概念訊號變成可控的強化學習監督。