深度分析 COVERT:可控驗證的工具使用資料合成框架提升代理式強化學習效能 現有工具使用合成資料多用於離線微調,缺乏即時回饋環境。COVERT 透過雙階段產生可靠軌跡並加入干擾與雜訊,同時保留 Oracle 呼叫作為真值。實驗顯示在 Qwen2.5‑Instruct‑14B 上提升 BFCL v3 至 59.9%、ACEBench 至 59.3%,證明合成環境可作為 RL 精煉的有效補充。