深度分析 TMMFormer:以三重動量將優化器原理內建於 Transformer 層級更新 研究把 pre-norm Transformer 層視為優化器步驟,將注意力與 MLP 解讀為負梯度預言器,進而把優化器設計搬進模型結構。論文提出一系列以優化器為靈感的變體,重點是三重動量(TMMFormer),它以速度流並行於殘差流,改變深度遞迴的傳播濾波特性。