速報 遞迴代理優化(RAO):讓代理自我分工、跨越上下文限制 遞迴代理優化(RAO)是一種以強化學習訓練遞迴代理的框架。遞迴代理能在推論時自行產生同型子代理,將複雜任務遞迴切分並以分而治之方式處理,RAO則學習何時委派與如何溝通以最有效利用此機制。研究發現,經RAO訓練的遞迴代理在訓練效率與泛化能力上均有提升,能擴展到超出原始上下文窗口的任務,且在實際運行時間上相較單一代理系統有優勢。