條件式策略網路 - Agents Report

深度分析

大型兩人零和博弈策略空間龐大，現有PSRO方法多以受限博弈回報作為擴充依據，但此類擴張往往偏向局部最優，對完整博弈近似改善有限。作者提出以族群可被利用性(PE)衡量族群質量，採探索—選擇雙階段框架先生成多個候選回應，再估算每一擴充後的PE以做篩選，並同時加入針對選定族群的最佳回應以加強擴充效果。