深度分析 Adam 的衰減後自適應失效:診斷與 Adaptive‑OGP 解耦修復 研究發現:多數持續學習方法在上游修改梯度(投影、懲罰式重標定、重放混合)後,仍把修改後訊號同時餵入 Adam 的一階與二階動量,導致在高重疊、無自適應強度調度的任務序列中出現「衰減後自適應(attenuate‑then‑adapt)」的隱性失效。