深度分析 自我對弈中動作移除攻擊:Adversarial Action Masking 對多智能體強化學習的影響與 CAC 衡量 研究探討一種新型對抗攻擊:在自我對弈強化學習中有意移除代理人的合法動作(action masking)。作者以雙層最佳化形式訓練敵對者,讓其在不同牌局規模與多種演算法(Q-Learning、PPO、NFSP、neural NFSP、DQN)上選擇要屏蔽的動作。