MAPLE:多狀態聚合策略評估推進不完全資訊博弈學習

本報導說明一項針對不完全資訊博弈的樹搜尋新法MAPLE(Multi-State Aggregated PoLicy Evaluation)。MAPLE在單一搜尋樹內,對多個從信息集中抽樣的世界狀態進行策略與價值評估的匯總,結合了PIMC與IS-MCTS的優勢,同時將計算成本保持在可控範圍。

MAPLE 多狀態聚合策略評估

MAPLE讓AlphaZero類框架進軍不完全資訊博弈

不完全資訊博弈要求玩家在無法完全觀察真實局勢下做決策,這對原本在完全資訊遊戲表現優異的AlphaZero帶來挑戰。MAPLE提出一種在單一搜尋樹內,對多個從信息集中抽樣得到的世界狀態進行策略與價值評估後匯總的方法,試圖兼顧PIMC的實作簡潔與IS-MCTS的決策一致性,且維持可控的運算負擔。

此外,研究引入Siamese式的抽樣策略,用以從信息集中挑出較具資訊性的世界狀態,提升匯總評估的效益。作者在Phantom Go與Dark Hex上的實驗結果顯示,與採用PIMC的AlphaZero基線相比,MAPLE分別帶來Elo提升291與136,顯示此方法在不完全資訊場景下有明顯效益。

整體而言,MAPLE提供一條折衷路徑,將多世界抽樣的多樣性與單樹搜尋的結構整合,對希望在不完全資訊博弈中採用AlphaZero式學習的研究與應用具有參考價值。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more