個人代理人 - Agents Report

深度分析

ClawGym針對Claw風格任務缺乏大規模資料的問題，提出結合persona與技能的雙向合成流程，生成13.5K可驗證任務，並以此訓練與評估代理人，實驗顯示小型模型在基準測試上提升逾30%。同時提供200題ClawGym-Bench作為可靠評測基準，並探討RL平行沙箱的效能提升。