任務合成

速報

代理人能力提升導致既有基準飽和且新題昂貴。TASTE以工具序列反向合成任務，結合自適應對比n-gram與大型語言模型驗證，經群聚挑選與難度迭代生成高覆蓋基準。11組模型測試顯示舊基準接近飽和的模型在新任務上表現顯著下滑，工具組合數量亦超過翻倍。

深度分析

ClawGym針對Claw風格任務缺乏大規模資料的問題，提出結合persona與技能的雙向合成流程，生成13.5K可驗證任務，並以此訓練與評估代理人，實驗顯示小型模型在基準測試上提升逾30%。同時提供200題ClawGym-Bench作為可靠評測基準，並探討RL平行沙箱的效能提升。