深度分析
SVEB 基準下的 Numca 與 Hista:以數值里程碑與隱藏態提升 LLM 的狀態價值估計
強化學習已成為精調大型語言模型(LLM)以優化行為的主流手段,但在 LLM 後訓練情境中,精準的狀態價值估計仍是瓶頸。本文提出 SVEB 基準,用以量化各法對狀態價值的估算誤差,並發現傳統 PPO 類 critic 常退化為群體平均基線。
深度分析
強化學習已成為精調大型語言模型(LLM)以優化行為的主流手段,但在 LLM 後訓練情境中,精準的狀態價值估計仍是瓶頸。本文提出 SVEB 基準,用以量化各法對狀態價值的估算誤差,並發現傳統 PPO 類 critic 常退化為群體平均基線。
深度分析
在大型語言模型強化學習訓練中,需高效權重傳輸。TensorHub 透過參考導向儲存避免實際複製,支援彈性拓撲與容錯。實驗顯示 GPU 停頓最高降低 6.7 倍,跨區域加速 19 倍。