動態語意建立揭示多代理協商缺口:LLM 多回合資源分配失靈
研究以一個迭代式多回合協商遊戲檢驗多代理大型語言模型(LLM)的互動能力。兩名代理人在共享資源上為各自私人專案協商,可驗證共同最優解;然而實驗發現,多數代理組合無法收斂到帕雷托最優。研究識別出四種失敗型態:缺乏共享互動歷史導致協調崩解;累積上下文引發僵化錨定;偏好表面公平(平均分)取代報酬最大化;
要點速報
研究顯示,當兩個大型語言模型代理人在多回合協商共享資源時,經常無法達成可共同驗證的最優分配。
研究設計與發現
作者設計一個迭代的多回合協商遊戲,讓雙方就共有資源分配到各自的私人專案,並能驗證是否達成共同最優解。雖然單一代理人在孤立情況能找出帕雷托最優,但代理二人組合普遍失敗。
研究總結出四種核心失敗模式:
(1) 在缺乏共享互動歷史時協調性能下降;
(2) 累積的對話上下文可能造成僵化錨定,使初始提案被視為不可討論;
(3) 代理人傾向於表面化的公平(如平均拆分),而非追求報酬最大化的協調;
(4) 指涉綁定失敗,代理無法在多回合中維持先前承諾的追蹤。
意義與結論
為了解開協調落差,作者提出三種基準線——或然基準顯示問題非源於個體推理限制;禁言基準證明溝通必要;完全透明介入則顯示僅有資訊交換仍不足以解決問題。結論指出,瓶頸在於共同計畫的形成、承諾以及執行等互動過程,也就是所謂的動態語意建立,這一軸向在多代理協作研究中尚被忽視,值得未來深入探討。
延伸閱讀
- 多代理LLM在陪審團式審議的實驗:RLHF強度如何影響定錨與共識形成
- Truth or Tribe:LLM人格代理、TDR與TC揭示身分偏誤機制
- 階層化多重人物歸納與證據追溯:以意圖記憶與 DPO 優化人物品質
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。