速報 TASTE:從工具序列演化合成任務,打破基準測試飽和 代理人能力提升導致既有基準飽和且新題昂貴。TASTE以工具序列反向合成任務,結合自適應對比n-gram與大型語言模型驗證,經群聚挑選與難度迭代生成高覆蓋基準。11組模型測試顯示舊基準接近飽和的模型在新任務上表現顯著下滑,工具組合數量亦超過翻倍。