Adam-optimizer - Agents Report

深度分析

研究發現：多數持續學習方法在上游修改梯度（投影、懲罰式重標定、重放混合）後，仍把修改後訊號同時餵入 Adam 的一階與二階動量，導致在高重疊、無自適應強度調度的任務序列中出現「衰減後自適應（attenuate‑then‑adapt）」的隱性失效。