深度分析 範數驅動的表徵相變與 grokking:從權重衰減與優化器動力學導出延遲定律 模型先完全記憶訓練集,卻在後續長時間後才突發泛化。本文提出規範分離延遲定律,指出延遲由正則化下從高範數記憶解脫並收縮至低範數結構表示所需時間決定;實驗證實延遲與權重衰減及學習率呈反比,且AdamW與SGD在相同超參數下表現不同。理論對其他具結構低範數解也具預測力。