深度分析 ClawGym 架構與基準測試:從合成任務到 Qwen3 系列模型效能提升 ClawGym針對Claw風格任務缺乏大規模資料的問題,提出結合persona與技能的雙向合成流程,生成13.5K可驗證任務,並以此訓練與評估代理人,實驗顯示小型模型在基準測試上提升逾30%。同時提供200題ClawGym-Bench作為可靠評測基準,並探討RL平行沙箱的效能提升。