深度分析 VFA:全域最大值預計算緩解 FlashAttention 向量運算瓶頸 FlashAttention 受限於向量運算延遲,研究提出 VFA 透過全域最大值預計算與鍵塊重新排序,減少 rowmax 更新。結合稀疏跳過的 VSA 進一步削減開銷,實驗顯示相較基線加速近兩倍,對未來加速器效能提升具重要意義。