streaming-reinforcement-learning - Agents Report

深度分析

研究背景：流式強化學習因單樣本更新易失穩。核心做法：提出「意向性更新」，以期望輸出變化反算步長，對價值以固定比例縮減TD誤差，對策略以限制每步對數機率變化為單位。主要結果：在純流式設定達到穩定且與使用回放庫相近的表現。實驗跨離散與連續控制均顯示穩健性。