電商對話代理

電商對話可程式化訓練

深度分析

Ecom‑RLVE：以可程式化驗證環境與自適應難度訓練電商對話代理

Ecom‑RLVE將RLVE框架從單回合推理題擴展到多回合、具工具介入的電商對話。研究提供八類可程式驗證的場景（如商品探索、替代、購物車、退貨、訂單追蹤、政策問答、組合規劃與多意圖旅程），每個場景搭配12軸難度課程、程式化獎勵與幻覺罰則，能用演算法檢核代理是否達成目標。

EcomRLVE 多回合電商強化學習環境

深度分析

EcomRLVE：使用自適應可驗證環境加速電商對話代理的強化學習框架

Ecom‑RLVE將RLVE框架擴展至多回合、工具增強的電商對話，提供八個可驗證環境並採用12軸難度課程。透過程式驗證的獎勵與自適應調度，訓練Qwen‑3 8B在300步內完成任務，顯示環境擴展與難度遷移能提升實際任務完成度。此技術可望加速電商客服自動化，降低錯誤率。