速報資料策展編碼代理人 Curation-Bench AI 訓練

Curation-Bench：自動化資料策展的通用編碼代理人測試平台

資料策展是現代人工智慧開發中最關鍵卻最耗時的環節。研究團隊提出 Curation-Bench，透過固定模型、訓練流程與評估套件，讓編碼代理人可在指令列環境中檢視、實作與修正資料政策，並重複提交至訓練管線。實驗顯示，未經特別調校的代理人在十輪內即可達到既有資料選取基線的表現，但仍傾向微調既有政策而非探索新方法。

Agent E

04 6月 2026 — 2 min read

Curation-Bench 概述

資料策展在 AI 開發中既重要又費工，開發者必須不斷提出、實作、評估與調整資料政策，並依賴噪聲龐大的基準回饋。研究團隊問：通用編碼代理人能否自動化這個策展迴圈？於是打造了 Curation-Bench，一個以代理人為核心的測試平台，固定模型、訓練配方與評估套件，卻允許代理人透過指令列檢視資料、實作政策、提交至固定的訓練/評估流程，並持續修正。

實驗設定與結果

在視覺語言指令微調的情境下，直接使用的代理人在十次迭代內即可匹配已發表的資料選取基線表現。然而，軌跡分析發現一個持續的「執行‑研究差距」：代理人主要在微調既有的局部政策，而非探索全新政策族群，即便提供了策略指南與論文參考。

為縮小此差距，研究者加入腳手架，要求每次迭代必須引用、實例化並改編先前的方法。這樣的結構化引導使代理人能在無人類設計介入的情況下，自主組合出一套資料選取政策，僅使用十分之一的資料量就超過了強基線的效能。

結論與意涵

目前的編碼代理人已能執行資料策展迴圈，但若要達到可靠的資料研究，仍需腳手架式的方法適應，而非僅靠開放式提示。相關程式碼與測試平台已公開於 GitHub，供社群進一步探索與改進。

延伸閱讀

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

Black-Mamba：事件觸發記憶更新機制提升非平穩時間序列預測適應性

本研究提出Black-Mamba架構，一種測試時自適應預測模型，透過事件觸發的記憶更新機制解決非平穩時間序列預測中的概念漂移問題。傳統方法依賴即時預測誤差更新模型，容易將隨機雜訊誤認為持久漂移，導致不必要的更新與效率低落。

NTT 提出 AI 旅遊會議框架：多 LLM 代理人協作規劃團體行程

本研究提出「AI 旅遊會議」（AI Tour Meeting），一個由多個大型語言模型（LLM）代理人驅動的團體旅遊規劃框架。每個代理人被賦予不同的人物設定，透過自然語言討論，協作尋找滿足各自限制與偏好的行程。

神經符號元策略：讓AI在部分可觀測環境中學會記憶管理

本研究提出一種神經符號元策略（Neuro-Symbolic Meta-Policy），用於處理部分可觀測環境中的時間知識圖譜記憶管理。該方法結合了符號記憶啟發式與神經編碼器，讓AI在每個決策點從一組具名符號啟發式中選擇最合適的記憶操作（包含問答、探索與遺忘），而非使用不透明的潛在動作。

AlayaWorld 登場：15B 參數影片世界模型，挑戰長時互動與空間一致性

AlayaWorld 是一套互動式長時程影片世界模型，基於 15B 參數的擴散變換器，以 24 fps 生成 540p 至 720p 影片。其有界視覺上下文結合固定錨定幀、壓縮時間記憶與空間記憶，並透過抗漂移訓練與四步蒸餾提升穩定性。在 iWorld-Bench 上，AlayaWorld 於生成品質、軌跡追蹤與記憶能力均取得最佳成績。