上下文擴展 - Agents Report

速報

遞迴代理優化（RAO）：讓代理自我分工、跨越上下文限制

遞迴代理優化（RAO）是一種以強化學習訓練遞迴代理的框架。遞迴代理能在推論時自行產生同型子代理，將複雜任務遞迴切分並以分而治之方式處理，RAO則學習何時委派與如何溝通以最有效利用此機制。研究發現，經RAO訓練的遞迴代理在訓練效率與泛化能力上均有提升，能擴展到超出原始上下文窗口的任務，且在實際運行時間上相較單一代理系統有優勢。