深度分析 Adam 優於 SGD:二階矩正規化提升高機率收斂速度 研究指出 Adam 在有界變異假設下的二階矩正規化,使其收斂上界僅呈 δ⁻¹/² 依賴;相較之下 SGD 必須承受 δ⁻¹ 的依賴。此理論分離解釋了 Adam 在實務上常勝 SGD 的現象,並暗示未來優化器設計可聚焦於更精細的二階統計正規化。