credit-assignment - Agents Report

深度分析

研究探討長期累積傷害決策問題對政策梯度法的挑戰。作者區分完成度與最適性兩類失效，提出分解診斷並在兩個不同職涯模擬（磚匠與NBA大前鋒）檢驗四項可測預測。結果顯示，授予地平線存取或限制動作空間能改善完成率，但仍遺留來自早期貪婪承諾的最適性缺口。