深度分析 Triton Ragged Attention 與 pack–attend–unpack:在 ViT 上降低派遣延遲並實現裁剪加速 視覺Transformer靠裁剪patch減少運算,但序列填充與主機派遣阻礙延遲下降。論文提出低派遣開銷的Triton ragged attention與融合打包流程,將存活token收攏至緊湊緩衝以減少讀寫浪費。實驗在多種裁剪法與DeiT尺度上展示最高約2.24倍端到端吞吐提升,且維持位元等價預測。