深度分析 Softmax 注意力能量場:以 SVD 分解揭示低秩與鍵向量去集中性 本文釐清 softmax 注意力在自回歸語言模型中的內在結構。作者定義「能量場」為逐列置中(row-centered)的注意力 logit,並以行列式分解(SVD)與一個稱為 key incoherence 的鍵向量分布指標,將注意力行為分為機制級與模型級兩類不變性。