深度分析 SPPO:序列層級 PPO 在長程推理任務中的突破性方法 本研究針對大型語言模型在長程推理任務的時間信用分配問題提出 SPPO,將推理重新定義為序列層級情境式多臂賭徒,利用解耦標量價值函數獲取低變異優勢訊號,免除多樣本基線估計。實驗結果顯示其效能顯著優於標準 PPO,且與計算密集的群組方法相當,提升對齊效率。