代理式強化學習 - Agents Report

深度分析

DeepTravel 結合沙箱與階層獎勵的端到端代理式強化學習旅遊規劃框架

隨著大型語言模型可自行使用工具，研究推出DeepTravel框架，利用沙箱與階層獎勵模型訓練自動旅遊規劃代理人，框架採階層獎勵先驗證時空可行性，再以回合檢查細節，並透過失敗回放提升推理，實驗顯示小型模型超越前沿模型，提升行程品質，已於滴滴企業版上線，顯示此技術可加速小模型商業化。

深度分析

OpenEnv 開源平台：統一代理式強化學習環境與訓練標準

OpenEnv於2026年獲得多家AI巨頭支援，提供可與任意模型、工具串接的代理執行環境，採用Gymnasium風格API及HTTP/WebSocket通訊，讓訓練與部署更一致，並由Meta‑PyTorch、Nvidia等組織共同治理，期望成為跨平台標準。

深度分析

開源代理式強化學習平台 OpenEnv：統一 API、跨平台部署與業界聯合治理

OpenEnv為代理式強化學習提供跨平台執行環境，支援HTTP、WebSocket與Docker，使用統一API。此舉降低訓練成本、提升開源模型效能，預期加速社群合作與商業落地。治理委員會由Meta‑PyTorch、Nvidia、Microsoft、HuggingFace等組成，未來將加入外部獎勵。

深度分析

OpenEnv：以 Gymnasium API 為核心的開源代理式強化學習平台與跨平台治理

OpenEnv 由多家 AI 企業組成治理委員會管理，提供 HTTP、WebSocket 與 Docker 部署的標準化代理執行環境。它作為 Gymnasium 風格的互通層，讓任何模型可即插即用，並預計加速開源代理模型訓練與跨平台整合。未來將加入外部獎勵與任務集，並提供完整範例，打造開源代理式強化學習的共同基礎設施。

深度分析

OpenEnv打造開源代理式強化學習標準平台：支援Gymnasium API與跨平台部署

OpenEnv為代理式強化學習提供標準化執行環境，採用Gymnasium風格API並支援HTTP、WebSocket與Docker部署。由多家AI大廠組成治理委員會共同管理，旨在提升開源模型訓練效率與跨平台整合。未來將加入外部獎勵與任務集，預期加速開源代理模型的生態。

深度分析

OpenEnv 推出新治理機制，標準化代理式強化學習環境介面

OpenEnv為代理式強化學習提供標準化執行環境，近日由多家AI大廠組成治理委員會管理，支援HTTP、WebSocket與Docker部署。它以Gymnasium風格API作為介面層，讓任何模型可無縫接入，同時不限定獎勵或訓練流程。此舉有望加速開源代理模型的訓練與跨平台整合。

深度分析

OpenEnv：開源代理式強化學習的標準化執行環境與治理框架

OpenEnv為打造代理人可操作的執行環境而生，近期由Meta‑PyTorch、Nvidia、Hugging Face等多家機構組成治理委員會。它將環境以Gymnasium風格API標準化，支援HTTP、WebSocket與Docker打包，任何模型皆可無縫接入。此舉有望提升開源代理模型的訓練效率。

AEM

AEM：回應層級熵調節於多回合代理式強化學習的實作與驗證

強化學習在多回合代理任務因稀疏回饋難以分配步驟責任。AEM提出回應層級的自適應熵調節，利用相對驚訝量作為內在不確定性代理，動態放大或縮放步驟優勢以引導探索至利用。實驗顯示在多個基準與不同模型規模上能穩定提升效能。在SWE-bench-Verified等任務與1.5B至32B模型範圍獲得可觀改善。

深度分析

COVERT：可控驗證的工具使用資料合成框架提升代理式強化學習效能

現有工具使用合成資料多用於離線微調，缺乏即時回饋環境。COVERT 透過雙階段產生可靠軌跡並加入干擾與雜訊，同時保留 Oracle 呼叫作為真值。實驗顯示在 Qwen2.5‑Instruct‑14B 上提升 BFCL v3 至 59.9%、ACEBench 至 59.3%，證明合成環境可作為 RL 精煉的有效補充。

深度分析

GPT‑OSS 代理式強化學習實驗與技術修正報告

在 AI 代理需求日增的背景下，本文探討 GPT-OSS 的代理式強化學習訓練流程，說明了環境互動、工具調用與多步決策的實作方法，並指出 MoE 路由不一致與注意力匯流問題導致的梯度爆炸。透過修正 log‑probability 與引入 FlashAttention v3 的注意力匯流支援，訓練穩定性與收斂速度大幅提升，預示此技術將加速開源模型在商業代理應用中的落地。