深度分析 長時程 Q-learning(LQL):以軌跡不等式與鉸鏈懲罰抑制 TD 誤差累積 離線到線上長時程任務中,Q-learning因TD引導會使估計誤差沿時間放大。本文提出長時程Q-learning(LQL),以軌跡最優不等式導出鉸鏈懲罰,將長期一致性加回TD損失且不需額外網路。實驗顯示於多個機器人基準上優於1步與多步TD。