深度分析 多時間尺度 PPO 於 Target Decoupling 架構的效能提升與時間不確定性悖論破解 研究聚焦於強化學習的時序信用分配問題,指出多時間尺度 PPO 會因時間注意力路由導致代理目標駭客與時間不確定性悖論。提出 Target Decoupling 架構,將 Critic 與 Actor 的訊號徹底分離,僅以長期優勢更新策略。實驗在 LunarLander‑v2 中證實新方法提升效能,穩定突破環境解決門檻。