分布校正 - Agents Report

深度分析

LLM在有批評指導時能修正錯誤但往往未內化。ICRL以共享骨幹同時學習解題器與評論器，透過分布校正比重與角色化優勢估計，將批評驅動的修正轉換為無需外援的固有能力，實驗顯示在多項代理與數學基準上有穩健提升。且所學評論器在測試時仍可提供有效修正。