Ecom-RLVE
Ecom‑RLVE:在可驗證環境中以自適應難度強化電商多回合代理
研究團隊將 RLVE 框架從單回合推理擴展為能處理多回合、具工具介入的電商對話環境,命名為 Ecom‑RLVE。該平台提供八類可程式驗證場景(如商品探索、替代、購物車、退貨、訂單追蹤、政策問答、組合規劃與多意圖旅程),每個場景搭配程序化題目生成、十二軸難度課程與演算法可驗證的獎勵設計。
Ecom-RLVE
研究團隊將 RLVE 框架從單回合推理擴展為能處理多回合、具工具介入的電商對話環境,命名為 Ecom‑RLVE。該平台提供八類可程式驗證場景(如商品探索、替代、購物車、退貨、訂單追蹤、政策問答、組合規劃與多意圖旅程),每個場景搭配程序化題目生成、十二軸難度課程與演算法可驗證的獎勵設計。
深度分析
Ecom‑RLVE將RLVE框架擴展至多回合、工具增強的電商對話,提供八個可驗證環境並採用12軸難度課程。透過程式驗證的獎勵與自適應調度,訓練Qwen‑3 8B在300步內完成任務,顯示環境擴展與難度遷移能提升實際任務完成度。此技術可望加速電商客服自動化,降低錯誤率。