MAMuT 系統級優化 - Agents Report

深度分析

對話式購物助理面臨多回合評估與多代理優化挑戰。本研究提出以四域量表和校準後的LLM裁判構建可重複的評分信號，並比較節點級GEPA與系統級MAMuT提示優化法，結果顯示系統級軌跡優化對多代理協調有關鍵作用。校準後的裁判與人工標註一致率從84.1%提升至91.4%，其中個人化與購物執行增幅最大。