線性注意力 - Agents Report

深度分析

StateLinFormer：線性注意力與持續記憶訓練提升長程導航與 In‑Context Learning

隨著機器人導航需求提升，傳統SLAM與固定窗口Transformer受限於記憶長度。研究提出StateLinFormer，以線性注意力結合跨批次持續記憶訓練，使模型在無限序列近似下保有長期資訊。實驗顯示在Maze與ProcTHOR環境中，其成功率與步數均顯著優於同規模基線。

深度分析

CARVE：鍵軸門控的內容感知記憶高效線性注意力模型

研究指出傳統線性注意力在記憶門控上缺乏內容感知且寫入門參數龐大，CARVE只在鍵軸做門控並以單一標量寫入門取代全矩陣，實驗在WikiText與推理基準上皆取得顯著提升，且計算與記憶開銷下降。參數量下降至原本的1.5%，記憶使用減13%，吞吐量僅差0.4%。

深度分析

Hippocampal Linear Attention (HOLA)：結合 KV 快取的線性注意力精準記憶機制

研究針對線性注意力模型記憶遺失問題，提出 Hippocampal Linear Attention（HOLA）將傳統的壓縮狀態與一個有界的精確 KV 快取結合，快取以模型自行計算的驚訝分數作為淘汰依據，並透過 RMSNorm‑γ 讀取以避免軟平均。實驗顯示在 340M 參數、15B 訓練資料下，Wikitext perplexity 從 27.32 降至 22.92，並在 32k 長度的 RULER 針對檢索測試中保持穩定。

深度分析

突破長序列瓶頸：CARVE 以鍵軸門控與線性注意力提升效能

隨著長序列模型在實務應用中受限於記憶與計算成本，研究提出 CARVE 架構，僅在鍵軸上設計門控並以標量寫入門取代矩陣寫入，實驗顯示在 WikiText 與多項推理基準上皆優於既有線性注意力模型，同時降低參數與記憶體占用。此設計預計將推動 AI 代理人與多模態應用的長上下文效能，降低部署門檻。

深度分析

利用傅立葉模式提升線性注意力：Blurry Window Attention 方法解析

Transformer在長序列上因二次複雜度受限，研究提出BlurryWindowAttention以傅立葉模式存儲鍵值，透過Dirichlet核模糊插值重建歷史，實驗顯示其狀態效率顯著比滑動視窗提升8倍，且在記憶密集任務中表現與主流線性模型相當。

深度分析

矩陣乘法取代前向替換：量化 GatedDeltaNet 逆算的 Neumann 近似與 NPU 加速

隨著大型語言模型上下文長度持續擴大，傳統注意力的二次成本成為瓶頸。研究者提出僅使用矩陣乘法的低階Neumann近似，結合結構遮罩與平行殘差校正，成功取代逐項前向替換。實驗在Qwen3.5系列模型上顯示，核心核速提升最高5倍，解碼層開銷降低約20%，且在浮點與低位元推論下保持精度。

深度分析

把 TTT-KV 轉為線性注意力：數學等價、平行化與部署啟示

本文重寫並延伸自一篇 arXiv 研究，指出以鍵值綁定為核心的測試時訓練（TTT-KV）並非單純在測試時「記憶」鍵值對，而可數學化為一類學習出的線性注意力運算。作者分析多項實驗異常：查詢與鍵分佈不對稱、用鍵取代查詢影響小、內迴圈損失改善反而壞化下游效能、甚至用梯度上升仍能保留表現。

深度分析

Subquadratic SSA：以內容導向稀疏注意力挑戰注意力二次方瓶頸

一個邁阿密新創宣稱用一種稱為 SSA 的稀疏注意力架構，把注意力計算從二次方複雜度降為線性。該法以內容導向選取重要標記、避免全域比對，並在長文脈檢索與程式碼任務上報告大幅速率與成本優勢。若獲第三方驗證，將改變企業處理長脈資料的成本結構與系統設計。

深度分析

FlashKDA：基於 CUTLASS 的 Kimi Delta Attention CUDA 加速實作

Moonshot AI 針對長序列生成的線性注意力機制 Kimi Delta Attention 發布開源 CUDA 核心 FlashKDA，基於 CUTLASS 在 NVIDIA Hopper GPU 上提供 1.7‑2.2 倍的預填加速，提升推論效能並減少 KV 快取使用。

深度分析

Transformer 內核揭秘：OLS 為單層線性 Transformer 的特例

研究指出 Transformer 的注意力機制在特定參數下可被視為普通最小平方法的特例，透過譜分解將前向傳播等價於 OLS 閉式投影，證實注意力一次前向即可求解，且揭示模型內部的慢速與快速記憶解耦，預示其記憶容量可從線性提升至指數。