深度分析 Transformer 層近似預條件 Richardson 迭代以求解高斯核 KRR 本文驗證標準softmax-attentionTransformer可在前向傳遞中近似解高斯核kernelridgeregression;關鍵在於將softmax視為行歸一化的核矩陣運算,並以ReLUMLP處理token層的標量更新;理論與實驗皆顯示其行為與預條件Richardson迭代相符,並提供深度與寬度的誤差刻畫。