大型語言模型 - Agents Report

深度分析

FlashAttention 受限於向量運算延遲，研究提出 VFA 透過全域最大值預計算與鍵塊重新排序，減少 rowmax 更新。結合稀疏跳過的 VSA 進一步削減開銷，實驗顯示相較基線加速近兩倍，對未來加速器效能提升具重要意義。