LSTM 結合 LSTM 狀態估計與殘差式強化學習的延遲韌性遙控架構 網路通訊造成的隨機且時變延遲,會讓遠端操控系統從可觀察的控制問題轉為部分可觀察問題,導致追蹤抖動與控制不穩。本文提出一套延遲韌性強化學習框架:以 LSTM 作為狀態估計器,重建平滑連續的狀態訊號,並由殘差式強化學習(residual RL)學習扭矩補償策略,以在追蹤精度與速度平滑間取得平衡。