深度分析 MTG-Causal-RL 與 CGFA-PPO:在部分觀測與遮罩動作空間下的因果強化學習基準 研究背景:因果強化學習缺乏同時包含序列決策、隱藏資訊與明確因果結構的基準環境。MTG-Causal-RL以Magic:TheGathering為平台,提供高維部分觀測、遮罩離散動作、手工結構因果模型與多項診斷指標。實驗顯示因果化代理在部分牌組勝率超越PPO,並能揭示校準與轉移差異。