深度分析 Krause Attention:以有界信任與 RBF 距離重構 Transformer 注意力 本文改寫自 ArXiv 提案,指出標準自注意力裡的全域 softmax 會在層疊運算中促成向量過度同步,進而出現表示塌陷與注意力匯聚現象。作者提出 Krause Attention:以查詢–鍵距離取代點積相似度,透過 RBF 核、有限信任半徑與局部 top‑k 稀疏化約束互動,促成多群簇化而非全域共識。