Coopetition-Gym v1:混合利害多智能體強化學習基準平台
Coopetition-Gym v1提出一套針對混合利害多智能體強化學習的基準平台。平台包含20個環境與四類機制,並提供可參數化獎勵層以分離收益與獎勵型態,便於消融分析。系統整合126種參考演算法與多種介面,並在四項歷史案例上驗證出高再現度,為連續動作混合動機研究建立可重複評測標準。
Coopetition-Gym v1 快訊
Coopetition-Gym v1 是一個針對混合利害(coopetition)多智能體強化學習的基準平台,設計以促進可重複與可比較的實驗研究。
平台收錄20個環境,分為四大機制類別,並為每個環境提供封閉形式的收益結構與校準的相互依賴矩陣。每個環境同時暴露三種結構不同的獎勵模式(私有、整合、合作),透過將收益與獎勵分離,便於進行獎勵類型的消融分析。
此外,系統支援 Gymnasium、PettingZoo Parallel 與 AEC 介面,內含126種參考演算法、7個博弈理論基準、2個啟發式基線與大量常數策略。研究團隊也針對四項歷史合作競合案例做驗證,報告呈現高再現度。這套平台首次把連續動作混合動機場景、參數化獎勵互惠性與校準係數等要素整合,為相關領域提供一套系統化的評測標準。
延伸閱讀
- 多代理LLM在陪審團式審議的實驗:RLHF強度如何影響定錨與共識形成
- Truth or Tribe:LLM人格代理、TDR與TC揭示身分偏誤機制
- 階層化多重人物歸納與證據追溯:以意圖記憶與 DPO 優化人物品質
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。