PPO - Agents Report | 代理人報告

深度分析

EVOM：以 LLM 為設計代理的元演化框架自動探索 Actor‑Critic 架構

在深度強化學習中，傳統演員-評論家網路多依賴手工設計，EVOM利用LLM作為設計代理，透過雙層優化將架構程式演化，並以低階PPO評估快速篩選，最終在Ant-v4與HalfCheetah-v4上超越手工基線與隨機搜尋，展示元演化與語言模型結合的效能。

深度分析

D-BOS：以可微信念驅動的對手塑形於隱藏角色博弈

研究聚焦隱藏角色博弈中，如何透過改變他人信念來提升長期回報。核心做法是把觀察者的後驗分布視為被塑形的狀態，沿可微 softmax‑Bayes 動態反向傳播 k 步，並以價值函數評估後驗終點的任務價值。實驗顯示此信念空間塑形在混合動機環境比 PPO 與 BBM 更具效益。

深度分析

政策梯度於長期累積傷害任務的完成度與最適性分解

研究探討長期累積傷害決策問題對政策梯度法的挑戰。作者區分完成度與最適性兩類失效，提出分解診斷並在兩個不同職涯模擬（磚匠與NBA大前鋒）檢驗四項可測預測。結果顯示，授予地平線存取或限制動作空間能改善完成率，但仍遺留來自早期貪婪承諾的最適性缺口。

Soft Actor-Critic (SAC)

提升 Soft Actor-Critic（SAC）於大規模並行模擬下的腿型機器人訓練效能

在大規模並行模擬背景下，研究比較了PPO與SAC的差距，指出SAC在初期探索、截斷回報處理與獎勵傳播上存在三大問題；透過策略初始化校正、截斷敏感的評論目標與多步回傳估計等修正，實驗在多款腿型機器人任務上顯示SAC可彌補與PPO的性能差距並在部分任務超越。

深度分析

pcsp：用 Persona‑Conditioned Shared Policy 與 InfoNCE 實現零樣本可追溯 NPC 行為

面對生活模擬遊戲的規模化NPC挑戰，研究提出pcsp：以凍結LLM嵌入加低秩投影，訓練單一共享RL策略並以InfoNCE保持軌跡一致性。在300人測試上，達到最高17×優於隨機、語意—行為Spearmanρ≈0.73，且推論比LLM基線快22×。

深度分析

MemTier：分層記憶與閉迴路歸因，為長期自治式代理緩解 BM25 檢索瓶頸

長期運行的自治式代理面臨記憶一致性衰退。MemTier以三層分級記憶、結構化JSONL軼事、五訊號加權檢索與注意力歸因迴路，並用非同步合併守護程序把軼事萃取為語義事實。評測在LongMemEval-S 500題上，語義預填後單次回溯達0.686–0.714，整體Acc提升至0.382、F1=0.412。