深度分析
D-BOS:以可微信念驅動的對手塑形於隱藏角色博弈
研究聚焦隱藏角色博弈中,如何透過改變他人信念來提升長期回報。核心做法是把觀察者的後驗分布視為被塑形的狀態,沿可微 softmax‑Bayes 動態反向傳播 k 步,並以價值函數評估後驗終點的任務價值。實驗顯示此信念空間塑形在混合動機環境比 PPO 與 BBM 更具效益。
深度分析
研究聚焦隱藏角色博弈中,如何透過改變他人信念來提升長期回報。核心做法是把觀察者的後驗分布視為被塑形的狀態,沿可微 softmax‑Bayes 動態反向傳播 k 步,並以價值函數評估後驗終點的任務價值。實驗顯示此信念空間塑形在混合動機環境比 PPO 與 BBM 更具效益。
深度分析
研究探討一種新型對抗攻擊:在自我對弈強化學習中有意移除代理人的合法動作(action masking)。作者以雙層最佳化形式訓練敵對者,讓其在不同牌局規模與多種演算法(Q-Learning、PPO、NFSP、neural NFSP、DQN)上選擇要屏蔽的動作。
速報
Coopetition-Gym v1提出一套針對混合利害多智能體強化學習的基準平台。平台包含20個環境與四類機制,並提供可參數化獎勵層以分離收益與獎勵型態,便於消融分析。系統整合126種參考演算法與多種介面,並在四項歷史案例上驗證出高再現度,為連續動作混合動機研究建立可重複評測標準。