深度分析 多代理長回合優化:GEPA、MAMuT 與可驗證四域量表在對話式購物助理的應用 對話式購物助理面臨多回合評估與多代理優化挑戰。本研究提出以四域量表和校準後的LLM裁判構建可重複的評分信號,並比較節點級GEPA與系統級MAMuT提示優化法,結果顯示系統級軌跡優化對多代理協調有關鍵作用。校準後的裁判與人工標註一致率從84.1%提升至91.4%,其中個人化與購物執行增幅最大。