AEM
AEM:回應層級熵調節於多回合代理式強化學習的實作與驗證
強化學習在多回合代理任務因稀疏回饋難以分配步驟責任。AEM提出回應層級的自適應熵調節,利用相對驚訝量作為內在不確定性代理,動態放大或縮放步驟優勢以引導探索至利用。實驗顯示在多個基準與不同模型規模上能穩定提升效能。在SWE-bench-Verified等任務與1.5B至32B模型範圍獲得可觀改善。
AEM
強化學習在多回合代理任務因稀疏回饋難以分配步驟責任。AEM提出回應層級的自適應熵調節,利用相對驚訝量作為內在不確定性代理,動態放大或縮放步驟優勢以引導探索至利用。實驗顯示在多個基準與不同模型規模上能穩定提升效能。在SWE-bench-Verified等任務與1.5B至32B模型範圍獲得可觀改善。
深度分析
現有工具使用合成資料多用於離線微調,缺乏即時回饋環境。COVERT 透過雙階段產生可靠軌跡並加入干擾與雜訊,同時保留 Oracle 呼叫作為真值。實驗顯示在 Qwen2.5‑Instruct‑14B 上提升 BFCL v3 至 59.9%、ACEBench 至 59.3%,證明合成環境可作為 RL 精煉的有效補充。
深度分析
在 AI 代理需求日增的背景下,本文探討 GPT-OSS 的代理式強化學習訓練流程,說明了環境互動、工具調用與多步決策的實作方法,並指出 MoE 路由不一致與注意力匯流問題導致的梯度爆炸。透過修正 log‑probability 與引入 FlashAttention v3 的注意力匯流支援,訓練穩定性與收斂速度大幅提升,預示此技術將加速開源模型在商業代理應用中的落地。