深度分析 兩階段決策抽樣假說:解析 RL 後訓練 LLM 的自我反思機制 研究指出,強化學習後訓練的大型語言模型會產生自我反思能力。作者提出兩階段決策抽樣假說,將策略分為生成抽樣與驗證決策,並以梯度歸因說明 RL 超越 SFT 的原因。此發現為理解 LLM 自校正機制提供理論基礎,也暗示未來可透過優化決策層提升模型通用性。