深度分析 ICRL:透過強化學習將自我批評內化為解題器能力並進行分布校正 LLM在有批評指導時能修正錯誤但往往未內化。ICRL以共享骨幹同時學習解題器與評論器,透過分布校正比重與角色化優勢估計,將批評驅動的修正轉換為無需外援的固有能力,實驗顯示在多項代理與數學基準上有穩健提升。且所學評論器在測試時仍可提供有效修正。