TASTE:從工具序列演化合成任務,打破基準測試飽和
代理人能力提升導致既有基準飽和且新題昂貴。TASTE以工具序列反向合成任務,結合自適應對比n-gram與大型語言模型驗證,經群聚挑選與難度迭代生成高覆蓋基準。11組模型測試顯示舊基準接近飽和的模型在新任務上表現顯著下滑,工具組合數量亦超過翻倍。
要點速覽
代理人能力快速提升,傳統基準開始飽和,設計新題又耗時昂貴。TASTE翻轉題目設計流程,從工具序列出發自動合成挑戰性任務,擴大工具使用覆蓋與鑑別力。
方法簡介
TASTE先以自適應對比 n-gram 模型在大量候選序列上估算有效性,並以大型語言模型提供驗證訊號,從而抽樣出合法且多樣的工具序列。接著對序列進行群聚,挑選代表性樣本並將之具象化成完整的基準任務,最後通過難度迭代來精煉題目,提升挑戰性。
實驗與發現
研究利用TASTE生成的τ^c-Bench評估11組代理人/使用者模型,結果顯示不少在既有基準上接近飽和的模型,在新生成的任務上出現明顯性能下滑;同時,代理人需處理的獨特工具組合數量也大幅增加,超過過往基準。
意義與影響
TASTE藉由自動化與序列驅動的合成流程,能持續產出高覆蓋且具鑑別力的基準題,幫助研究者與開發團隊揭露模型在複合工具使用情境下的弱點,避免高分只是基準飽和的假象。
延伸閱讀
- VITA‑QinYu:Decoder‑only Transformer 結合 Qwen3‑8B/Youtu‑LLM‑4B,支援角色扮演與歌唱
- X-Voice 多語無稿零樣本聲音克隆:0.4B流匹配架構與雙層語言注入
- Mistral 的 Voxtral TTS:自回歸語義引擎與 flow-matching 聲學模型實現 3 秒短樣本多語聲音克隆
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。