軌跡一致性 - Agents Report

深度分析

離線到線上長時程任務中，Q-learning因TD引導會使估計誤差沿時間放大。本文提出長時程Q-learning(LQL)，以軌跡最優不等式導出鉸鏈懲罰，將長期一致性加回TD損失且不需額外網路。實驗顯示於多個機器人基準上優於1步與多步TD。