深度分析
政策梯度於長期累積傷害任務的完成度與最適性分解
研究探討長期累積傷害決策問題對政策梯度法的挑戰。作者區分完成度與最適性兩類失效,提出分解診斷並在兩個不同職涯模擬(磚匠與NBA大前鋒)檢驗四項可測預測。結果顯示,授予地平線存取或限制動作空間能改善完成率,但仍遺留來自早期貪婪承諾的最適性缺口。
深度分析
研究探討長期累積傷害決策問題對政策梯度法的挑戰。作者區分完成度與最適性兩類失效,提出分解診斷並在兩個不同職涯模擬(磚匠與NBA大前鋒)檢驗四項可測預測。結果顯示,授予地平線存取或限制動作空間能改善完成率,但仍遺留來自早期貪婪承諾的最適性缺口。
深度分析
研究背景:流式強化學習因單樣本更新易失穩。核心做法:提出「意向性更新」,以期望輸出變化反算步長,對價值以固定比例縮減TD誤差,對策略以限制每步對數機率變化為單位。主要結果:在純流式設定達到穩定且與使用回放庫相近的表現。實驗跨離散與連續控制均顯示穩健性。