深度分析 Inverse-RPO:將 UCB-V 轉化為變異數感知的先驗式 UCT 結合學習與搜尋是 AlphaZero 成功關鍵。本文提出 Inverse-RPO 方法,能把任意無先驗的 UCB 系統化轉為含先驗的 UCT,並以 UCB-V 推導出變異數感知的 UCT-V-P 與啟發式 PUCT-V。實驗顯示這兩種先驗式策略在多項基準上優於現行 PUCT,且可低成本部署。