FlashAttention - Agents Report

深度分析

STEEL：首個針對 AMD XDNA NPU 的 FlashAttention 實作，實現低功耗 AI 代理推理

隨著 AI 代理融入作業系統，筆電端 SoC 的能效推理成為關鍵。研究團隊推出 STEEL，首個針對 XDNA NPU 的開源 FlashAttention 實作，透過三階段資料流管線與稀疏感知配置，解決因果遮罩導致的運算不均問題。實驗顯示，STEEL 在 AMD Ryzen AI 9 HX 370 上能耗較 CPU 降低 9.17 倍，較 GPU 降低 1.75 倍，大幅提升長序列推理效率。

深度分析

「非同步批次」與 CUDA 串流結合提升 LLM 推論 GPU 效能約 24%

隨著 LLM 推論需求提升，持續批次已成效能關鍵。傳統同步批次因 CPU 與 GPU 輪流等待，導致近四成時間空閒。本文說明如何利用 CUDA 串流與事件實作非同步批次，讓 CPU 與 GPU 同時工作，提升約 24% 效能，並探討其對雲端推論成本與開發者生態的影響。

BERTomelo Portuguese NLP encoder infographic.

速報

BERTomelo：全新葡萄牙語單語言編碼器突破效能與規模

隨著編碼器成為多項 NLP 任務的主流，葡萄牙語單語言模型仍落後於最新架構。BERTomelo 以 ModernBERT 為基礎，支援 1,024 token 視窗並加入 FlashAttention 與交替注意力機制，於 1.06 億篇語料上訓練。測試顯示其在 STS 與 NER 等任務上優於既有模型，且效能更佳。

深度分析

Parallax（PLX）：以參數化協方差修正提升本地線性注意力的長序列檢索能力

大型語言模型長序列生成常仰賴SoftmaxAttention。本文提出Parallax，將本地線性注意力參數化，加入可學習的R投影以近似KV協方差，避免每步共軛梯度求解並穩定訓練。實驗在合成任務與0.6B、1.7B預訓練上顯示較Softmax更好困惑度與下游準確度。

RTP-LLM

RTP-LLM：面向生產環境的高效能 LLM 推理引擎（CUDA 優化與量化實作）

報導聚焦一款來自企業團隊的開源推理引擎，背景為大型語言模型在生產場景需求快速成長。核心透過圖形運算處理器加速、分頁注意力與高效解碼等演算法優化，並結合權重整數量化、KV快取量化與預填與解碼分離的系統設計。結果在降低推理延遲與提升生產環境吞吐及部署穩定性方面有明顯助益。

深度分析

VFA：全域最大值預計算緩解 FlashAttention 向量運算瓶頸

FlashAttention 受限於向量運算延遲，研究提出 VFA 透過全域最大值預計算與鍵塊重新排序，減少 rowmax 更新。結合稀疏跳過的 VSA 進一步削減開銷，實驗顯示相較基線加速近兩倍，對未來加速器效能提升具重要意義。

深度分析

Ulysses 序列平行化：突破百萬標記長上下文的訓練瓶頸

隨著模型需處理長序列，Ulysses 序列平行化透過把注意力頭分散到多卡並使用 all‑to‑all 通訊，解決了二次方記憶體瓶頸。實驗在 4 張 H100 上將序列長度提升至 96K，記憶體降低 3.3 倍，吞吐量提升 3.7 倍，為長上下文 AI 訓練開闢新可能。