速報
MAPLE:多狀態聚合策略評估推進不完全資訊博弈學習
本報導說明一項針對不完全資訊博弈的樹搜尋新法MAPLE(Multi-State Aggregated PoLicy Evaluation)。MAPLE在單一搜尋樹內,對多個從信息集中抽樣的世界狀態進行策略與價值評估的匯總,結合了PIMC與IS-MCTS的優勢,同時將計算成本保持在可控範圍。
速報
本報導說明一項針對不完全資訊博弈的樹搜尋新法MAPLE(Multi-State Aggregated PoLicy Evaluation)。MAPLE在單一搜尋樹內,對多個從信息集中抽樣的世界狀態進行策略與價值評估的匯總,結合了PIMC與IS-MCTS的優勢,同時將計算成本保持在可控範圍。
深度分析
本研究以最小任務描述,測試四款前沿編碼代理(Gemini 3.1 Pro、Claude Opus 4.6、Claude Opus 4.7、GPT‑5.4)在消費級桌機與單顆 GPU 上,於三小時內自主建構 AlphaZero 風格的 Connect Four 自我對弈機器學習管線。