深度分析 FlashKDA:基於 CUTLASS 的 Kimi Delta Attention CUDA 加速實作 Moonshot AI 針對長序列生成的線性注意力機制 Kimi Delta Attention 發布開源 CUDA 核心 FlashKDA,基於 CUTLASS 在 NVIDIA Hopper GPU 上提供 1.7‑2.2 倍的預填加速,提升推論效能並減少 KV 快取使用。