速報 Curation-Bench:自動化資料策展的通用編碼代理人測試平台 資料策展是現代人工智慧開發中最關鍵卻最耗時的環節。研究團隊提出 Curation-Bench,透過固定模型、訓練流程與評估套件,讓編碼代理人可在指令列環境中檢視、實作與修正資料政策,並重複提交至訓練管線。實驗顯示,未經特別調校的代理人在十輪內即可達到既有資料選取基線的表現,但仍傾向微調既有政策而非探索新方法。