深度分析 Gradient Extrapolation(GXPO):三次反向傳播下的優化器端多步展望政策優化 強化學習在可驗證回報的長文推理任務中扮演關鍵角色。GXPO在不新增回合或回報計算下,以兩次探測梯度與一次修正梯度、三次反向傳播模擬多步展望,藉由幾何外推調整政策更新方向,兼顧更新品質與計算成本。實驗在Qwen2.5與Llama上顯示精準度與收斂時間具改善。