深度分析
Parallax(PLX):以參數化協方差修正提升本地線性注意力的長序列檢索能力
大型語言模型長序列生成常仰賴SoftmaxAttention。本文提出Parallax,將本地線性注意力參數化,加入可學習的R投影以近似KV協方差,避免每步共軛梯度求解並穩定訓練。實驗在合成任務與0.6B、1.7B預訓練上顯示較Softmax更好困惑度與下游準確度。
深度分析
大型語言模型長序列生成常仰賴SoftmaxAttention。本文提出Parallax,將本地線性注意力參數化,加入可學習的R投影以近似KV協方差,避免每步共軛梯度求解並穩定訓練。實驗在合成任務與0.6B、1.7B預訓練上顯示較Softmax更好困惑度與下游準確度。
RTP-LLM
報導聚焦一款來自企業團隊的開源推理引擎,背景為大型語言模型在生產場景需求快速成長。核心透過圖形運算處理器加速、分頁注意力與高效解碼等演算法優化,並結合權重整數量化、KV快取量化與預填與解碼分離的系統設計。結果在降低推理延遲與提升生產環境吞吐及部署穩定性方面有明顯助益。
深度分析
FlashAttention 受限於向量運算延遲,研究提出 VFA 透過全域最大值預計算與鍵塊重新排序,減少 rowmax 更新。結合稀疏跳過的 VSA 進一步削減開銷,實驗顯示相較基線加速近兩倍,對未來加速器效能提升具重要意義。
深度分析
隨著模型需處理長序列,Ulysses 序列平行化透過把注意力頭分散到多卡並使用 all‑to‑all 通訊,解決了二次方記憶體瓶頸。實驗在 4 張 H100 上將序列長度提升至 96K,記憶體降低 3.3 倍,吞吐量提升 3.7 倍,為長上下文 AI 訓練開闢新可能。