自我反思

深度分析

本研究探討大型語言模型的情境內搜索（in‑context search），透過自我反思定位早期錯誤，將指數級抽樣需求降為多項式次數。理論證明若反思能早期定位錯誤，搜索效能可呈指數提升；反之則無優勢。實驗驗證此機制於真實推理模型上成立。對未來 AI 推理有深遠啟示。

深度分析

研究指出，強化學習後訓練的大型語言模型會產生自我反思能力。作者提出兩階段決策抽樣假說，將策略分為生成抽樣與驗證決策，並以梯度歸因說明 RL 超越 SFT 的原因。此發現為理解 LLM 自校正機制提供理論基礎，也暗示未來可透過優化決策層提升模型通用性。