gradient-extrapolation - Agents Report

深度分析

強化學習在可驗證回報的長文推理任務中扮演關鍵角色。GXPO在不新增回合或回報計算下，以兩次探測梯度與一次修正梯度、三次反向傳播模擬多步展望，藉由幾何外推調整政策更新方向，兼顧更新品質與計算成本。實驗在Qwen2.5與Llama上顯示精準度與收斂時間具改善。