深度分析 RAPID:層級感知冗餘剪枝與重要性合併提升 Vision Transformer 效能 Vision Transformer 因自注意力計算量大而難以部署,研究提出 RAPID 以層級感知的冗餘剪枝與重要性合併減少 token。淺層使用冗餘相似度剪除重複局部特徵,深層則保留關鍵 CLS 權重的 token 並合併相似次要 token。實驗顯示在極端壓縮下,RAPID 的準確度比 ToMe 高出 4.29%。