深度分析 D-BOS:以可微信念驅動的對手塑形於隱藏角色博弈 研究聚焦隱藏角色博弈中,如何透過改變他人信念來提升長期回報。核心做法是把觀察者的後驗分布視為被塑形的狀態,沿可微 softmax‑Bayes 動態反向傳播 k 步,並以價值函數評估後驗終點的任務價值。實驗顯示此信念空間塑形在混合動機環境比 PPO 與 BBM 更具效益。