深度分析 CuTile 性能評估:在 B200、RTX PRO 6000 與 H100 上的 GEMM、FMHA 與 LLM 推論表現 本研究比較CUDA Tile與cuBLAS、Triton、WMMA等在Hopper與Blackwell GPU上針對GEMM、融合注意力與LLM推論的表現。CuTile以Python磁磚抽象簡化Tensor Core與TMA使用,並在B200上對融合注意力取得領先,但在工作站等級Blackwell上效能下降,突顯跨架構可攜性風險。