MARS:具預算感知與反思搜尋的模組化自動化人工智慧研究代理
自動化人工智慧研究長期被複雜的機器學習工程(MLE)任務困住,因為訓練評估成本高且成效難以歸因。論文提出 MARS(Modular Agent with Reflective Search),以三大支柱回應這些挑戰:透過成本受限的蒙地卡羅樹搜尋實作預算感知規劃,明確在效能與執行費用間取捨;
MARS:為自動化人工智慧研究而生
研究指出,複雜的機器學習工程(MLE)任務常受限於昂貴的評估成本與不透明的成效歸因,現有的大型語言模型驅動代理往往產生單片式腳本,忽略執行代價與因果因素。為此,研究團隊提出 MARS(Modular Agent with Reflective Search),把自動化研究工程化。
三大設計支柱
MARS 以三個核心機制協同運作:
- 預算感知規劃:採用成本受限的蒙地卡羅樹搜尋(MCTS),在探索效能與執行花費間做出明確權衡。
- 模組化建構:沿用「設計—分解—實作」流程,將研究任務拆解為可管理的模組,便於在複雜代碼庫中實驗與重用。
- 比較式反思記憶:透過分析不同分支解法的差異,將高訊號的改進與教訓萃取並寫入記憶,改善信用指派問題。
成效與意義
在可比較的實驗設定下,MARS 在開源框架的 MLE-Bench 表現領先,並與全球排行榜前列方法保持競爭力。系統還出現多次質的「Aha!」時刻,其中63%的被採用教訓來自跨分支轉移,顯示代理能有效把局部探索中的見解泛化到其他路徑,提升搜尋效率與成果重用性。
延伸閱讀
- PCAS:以依賴圖與 Datalog 宣告式政策實現確定性授權編譯器
- DIBA:以行為位移揭露 RLVR 下的成員推斷風險
- LaTeXpOsEd:以 LaTeX 源檔、模式比對與大型語言模型評估預印本的資安風險
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。