狀態價值估計 - Agents Report

深度分析

強化學習已成為精調大型語言模型（LLM）以優化行為的主流手段，但在 LLM 後訓練情境中，精準的狀態價值估計仍是瓶頸。本文提出 SVEB 基準，用以量化各法對狀態價值的估算誤差，並發現傳統 PPO 類 critic 常退化為群體平均基線。