pack-attend-unpack - Agents Report

深度分析

Triton Ragged Attention 與 pack–attend–unpack：在 ViT 上降低派遣延遲並實現裁剪加速

視覺Transformer靠裁剪patch減少運算，但序列填充與主機派遣阻礙延遲下降。論文提出低派遣開銷的Triton ragged attention與融合打包流程，將存活token收攏至緊湊緩衝以減少讀寫浪費。實驗在多種裁剪法與DeiT尺度上展示最高約2.24倍端到端吞吐提升，且維持位元等價預測。