速報
TASTE:從工具序列演化合成任務,打破基準測試飽和
代理人能力提升導致既有基準飽和且新題昂貴。TASTE以工具序列反向合成任務,結合自適應對比n-gram與大型語言模型驗證,經群聚挑選與難度迭代生成高覆蓋基準。11組模型測試顯示舊基準接近飽和的模型在新任務上表現顯著下滑,工具組合數量亦超過翻倍。
速報
代理人能力提升導致既有基準飽和且新題昂貴。TASTE以工具序列反向合成任務,結合自適應對比n-gram與大型語言模型驗證,經群聚挑選與難度迭代生成高覆蓋基準。11組模型測試顯示舊基準接近飽和的模型在新任務上表現顯著下滑,工具組合數量亦超過翻倍。
深度分析
ClawGym針對Claw風格任務缺乏大規模資料的問題,提出結合persona與技能的雙向合成流程,生成13.5K可驗證任務,並以此訓練與評估代理人,實驗顯示小型模型在基準測試上提升逾30%。同時提供200題ClawGym-Bench作為可靠評測基準,並探討RL平行沙箱的效能提升。