深度分析 DeMP:結合元學習與 SAC 的跨回合欺瞞路徑規劃 研究處理會從歷史軌跡學習的觀察者,提出Repeated Deceptive Path Planning與Deceptive Meta Planning(DeMP)。DeMP結合回合內快速適應與跨回合元更新,主動預測觀察者學習,減緩適應滯後。實驗顯示可持續維持高欺瞞率且路徑成本具競爭力。