深度分析 意向性更新於流式強化學習:以輸出導向步長控制 TD 與策略梯度 研究背景:流式強化學習因單樣本更新易失穩。核心做法:提出「意向性更新」,以期望輸出變化反算步長,對價值以固定比例縮減TD誤差,對策略以限制每步對數機率變化為單位。主要結果:在純流式設定達到穩定且與使用回放庫相近的表現。實驗跨離散與連續控制均顯示穩健性。