CuTile

深度分析

CuTile 於 Blackwell B200 GPU 上的注意力加速與效能評估

CUDATile（CuTile）是NVIDIA2025年推出的瓦片抽象，減少手寫CUDA程式碼。實驗顯示在BlackwellB200上，CuTile注意力可達1,007TFLOP/s，超過FlashAttention‑2；但在RTXPRO6000上僅為其53%。資料中心可採用，工作站建議Triton。

深度分析

CuTile 性能評估：在 B200、RTX PRO 6000 與 H100 上的 GEMM、FMHA 與 LLM 推論表現

本研究比較CUDA Tile與cuBLAS、Triton、WMMA等在Hopper與Blackwell GPU上針對GEMM、融合注意力與LLM推論的表現。CuTile以Python磁磚抽象簡化Tensor Core與TMA使用，並在B200上對融合注意力取得領先，但在工作站等級Blackwell上效能下降，突顯跨架構可攜性風險。