LSTM - Agents Report | 代理人報告

LSTM

網路通訊造成的隨機且時變延遲，會讓遠端操控系統從可觀察的控制問題轉為部分可觀察問題，導致追蹤抖動與控制不穩。本文提出一套延遲韌性強化學習框架：以 LSTM 作為狀態估計器，重建平滑連續的狀態訊號，並由殘差式強化學習（residual RL）學習扭矩補償策略，以在追蹤精度與速度平滑間取得平衡。