RL 資料合成 - Agents Report

深度分析

COVERT：可控驗證的工具使用資料合成框架提升代理式強化學習效能

現有工具使用合成資料多用於離線微調，缺乏即時回饋環境。COVERT 透過雙階段產生可靠軌跡並加入干擾與雜訊，同時保留 Oracle 呼叫作為真值。實驗顯示在 Qwen2.5‑Instruct‑14B 上提升 BFCL v3 至 59.9%、ACEBench 至 59.3%，證明合成環境可作為 RL 精煉的有效補充。