深度分析 SVEB 基準下的 Numca 與 Hista:以數值里程碑與隱藏態提升 LLM 的狀態價值估計 強化學習已成為精調大型語言模型(LLM)以優化行為的主流手段,但在 LLM 後訓練情境中,精準的狀態價值估計仍是瓶頸。本文提出 SVEB 基準,用以量化各法對狀態價值的估算誤差,並發現傳統 PPO 類 critic 常退化為群體平均基線。