multi-agent-rl - Agents Report

深度分析

研究聚焦隱藏角色博弈中，如何透過改變他人信念來提升長期回報。核心做法是把觀察者的後驗分布視為被塑形的狀態，沿可微 softmax‑Bayes 動態反向傳播 k 步，並以價值函數評估後驗終點的任務價值。實驗顯示此信念空間塑形在混合動機環境比 PPO 與 BBM 更具效益。

深度分析

研究探討一種新型對抗攻擊：在自我對弈強化學習中有意移除代理人的合法動作（action masking）。作者以雙層最佳化形式訓練敵對者，讓其在不同牌局規模與多種演算法（Q-Learning、PPO、NFSP、neural NFSP、DQN）上選擇要屏蔽的動作。

速報

Coopetition-Gym v1提出一套針對混合利害多智能體強化學習的基準平台。平台包含20個環境與四類機制，並提供可參數化獎勵層以分離收益與獎勵型態，便於消融分析。系統整合126種參考演算法與多種介面，並在四項歷史案例上驗證出高再現度，為連續動作混合動機研究建立可重複評測標準。