robustness - Agents Report | 代理人報告

深度分析

研究探討一種新型對抗攻擊：在自我對弈強化學習中有意移除代理人的合法動作（action masking）。作者以雙層最佳化形式訓練敵對者，讓其在不同牌局規模與多種演算法（Q-Learning、PPO、NFSP、neural NFSP、DQN）上選擇要屏蔽的動作。