深度分析
D-BOS:以可微信念驅動的對手塑形於隱藏角色博弈
研究聚焦隱藏角色博弈中,如何透過改變他人信念來提升長期回報。核心做法是把觀察者的後驗分布視為被塑形的狀態,沿可微 softmax‑Bayes 動態反向傳播 k 步,並以價值函數評估後驗終點的任務價值。實驗顯示此信念空間塑形在混合動機環境比 PPO 與 BBM 更具效益。
深度分析
研究聚焦隱藏角色博弈中,如何透過改變他人信念來提升長期回報。核心做法是把觀察者的後驗分布視為被塑形的狀態,沿可微 softmax‑Bayes 動態反向傳播 k 步,並以價值函數評估後驗終點的任務價值。實驗顯示此信念空間塑形在混合動機環境比 PPO 與 BBM 更具效益。
深度分析
研究探討長期累積傷害決策問題對政策梯度法的挑戰。作者區分完成度與最適性兩類失效,提出分解診斷並在兩個不同職涯模擬(磚匠與NBA大前鋒)檢驗四項可測預測。結果顯示,授予地平線存取或限制動作空間能改善完成率,但仍遺留來自早期貪婪承諾的最適性缺口。
Soft Actor-Critic (SAC)
在大規模並行模擬背景下,研究比較了PPO與SAC的差距,指出SAC在初期探索、截斷回報處理與獎勵傳播上存在三大問題;透過策略初始化校正、截斷敏感的評論目標與多步回傳估計等修正,實驗在多款腿型機器人任務上顯示SAC可彌補與PPO的性能差距並在部分任務超越。
深度分析
面對生活模擬遊戲的規模化NPC挑戰,研究提出pcsp:以凍結LLM嵌入加低秩投影,訓練單一共享RL策略並以InfoNCE保持軌跡一致性。在300人測試上,達到最高17×優於隨機、語意—行為Spearmanρ≈0.73,且推論比LLM基線快22×。
深度分析
長期運行的自治式代理面臨記憶一致性衰退。MemTier以三層分級記憶、結構化JSONL軼事、五訊號加權檢索與注意力歸因迴路,並用非同步合併守護程序把軼事萃取為語義事實。評測在LongMemEval-S 500題上,語義預填後單次回溯達0.686–0.714,整體Acc提升至0.382、F1=0.412。