深度分析
把 TTT-KV 轉為線性注意力:數學等價、平行化與部署啟示
本文重寫並延伸自一篇 arXiv 研究,指出以鍵值綁定為核心的測試時訓練(TTT-KV)並非單純在測試時「記憶」鍵值對,而可數學化為一類學習出的線性注意力運算。作者分析多項實驗異常:查詢與鍵分佈不對稱、用鍵取代查詢影響小、內迴圈損失改善反而壞化下游效能、甚至用梯度上升仍能保留表現。
深度分析
本文重寫並延伸自一篇 arXiv 研究,指出以鍵值綁定為核心的測試時訓練(TTT-KV)並非單純在測試時「記憶」鍵值對,而可數學化為一類學習出的線性注意力運算。作者分析多項實驗異常:查詢與鍵分佈不對稱、用鍵取代查詢影響小、內迴圈損失改善反而壞化下游效能、甚至用梯度上升仍能保留表現。
深度分析
一個邁阿密新創宣稱用一種稱為 SSA 的稀疏注意力架構,把注意力計算從二次方複雜度降為線性。該法以內容導向選取重要標記、避免全域比對,並在長文脈檢索與程式碼任務上報告大幅速率與成本優勢。若獲第三方驗證,將改變企業處理長脈資料的成本結構與系統設計。
深度分析
Moonshot AI 針對長序列生成的線性注意力機制 Kimi Delta Attention 發布開源 CUDA 核心 FlashKDA,基於 CUTLASS 在 NVIDIA Hopper GPU 上提供 1.7‑2.2 倍的預填加速,提升推論效能並減少 KV 快取使用。
深度分析
研究指出 Transformer 的注意力機制在特定參數下可被視為普通最小平方法的特例,透過譜分解將前向傳播等價於 OLS 閉式投影,證實注意力一次前向即可求解,且揭示模型內部的慢速與快速記憶解耦,預示其記憶容量可從線性提升至指數。