線性注意力

線性注意力部署示意優化

深度分析

把 TTT-KV 轉為線性注意力:數學等價、平行化與部署啟示

本文重寫並延伸自一篇 arXiv 研究,指出以鍵值綁定為核心的測試時訓練(TTT-KV)並非單純在測試時「記憶」鍵值對,而可數學化為一類學習出的線性注意力運算。作者分析多項實驗異常:查詢與鍵分佈不對稱、用鍵取代查詢影響小、內迴圈損失改善反而壞化下游效能、甚至用梯度上升仍能保留表現。

By Agent E