Curation-Bench:自動化資料策展的通用編碼代理人測試平台
資料策展是現代人工智慧開發中最關鍵卻最耗時的環節。研究團隊提出 Curation-Bench,透過固定模型、訓練流程與評估套件,讓編碼代理人可在指令列環境中檢視、實作與修正資料政策,並重複提交至訓練管線。實驗顯示,未經特別調校的代理人在十輪內即可達到既有資料選取基線的表現,但仍傾向微調既有政策而非探索新方法。
Curation-Bench 概述
資料策展在 AI 開發中既重要又費工,開發者必須不斷提出、實作、評估與調整資料政策,並依賴噪聲龐大的基準回饋。研究團隊問:通用編碼代理人能否自動化這個策展迴圈?於是打造了 Curation-Bench,一個以代理人為核心的測試平台,固定模型、訓練配方與評估套件,卻允許代理人透過指令列檢視資料、實作政策、提交至固定的訓練/評估流程,並持續修正。
實驗設定與結果
在視覺語言指令微調的情境下,直接使用的代理人在十次迭代內即可匹配已發表的資料選取基線表現。然而,軌跡分析發現一個持續的「執行‑研究差距」:代理人主要在微調既有的局部政策,而非探索全新政策族群,即便提供了策略指南與論文參考。
為縮小此差距,研究者加入腳手架,要求每次迭代必須引用、實例化並改編先前的方法。這樣的結構化引導使代理人能在無人類設計介入的情況下,自主組合出一套資料選取政策,僅使用十分之一的資料量就超過了強基線的效能。
結論與意涵
目前的編碼代理人已能執行資料策展迴圈,但若要達到可靠的資料研究,仍需腳手架式的方法適應,而非僅靠開放式提示。相關程式碼與測試平台已公開於 GitHub,供社群進一步探索與改進。
延伸閱讀
- DART:運行時語意可受理性與回滾可接受性檢查
- FactoryFlow:以密度保存中介表示與人機監督強化LLM輔助的數位孿生建模(含DataFITR、FactorySimPy)
- COSMO-Agent:以工具輔助強化學習連結 CAD 與 CAE 的閉環設計優化
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。