深度分析
STARFISH 以內部狀態對齊提升高稀疏度剪枝神經網路精度
隨著模型規模不斷膨脹,剪枝成為降低記憶體與運算成本的關鍵技術。研究提出STARFISH方法,利用少量未標記影像校正集,使剪枝後的網路內部表示與原始模型對齊,從而恢復精度。實驗顯示,在75%權重被剪除的情況下,STARFISH只需0.4%訓練影像即可恢復原始模型82%的準確率,遠超其他方法。
深度分析
隨著模型規模不斷膨脹,剪枝成為降低記憶體與運算成本的關鍵技術。研究提出STARFISH方法,利用少量未標記影像校正集,使剪枝後的網路內部表示與原始模型對齊,從而恢復精度。實驗顯示,在75%權重被剪除的情況下,STARFISH只需0.4%訓練影像即可恢復原始模型82%的準確率,遠超其他方法。
深度分析
本研究把人類凝視密度圖用作微調視覺轉換器的自注意力權重,並以洗牌控制驗證信號語義性。微調後模型在五項顯著性度量上與人類注視更接近,且自發出現三類人類注意偏好:動物優先、小物體偏好與注意更集中。關鍵發現是,這類對齊在原始、受損與分布外影像上未造成分類性能下降。
深度分析
本研究針對視覺轉換器的自注意力計算瓶頸,提出全矩陣運算的 MaMe 令牌合併與 MaRe 復原技術,於 ViT‑B 提升兩倍吞吐僅降 2% 準確度,並在多項任務展現加速與品質提升。
深度分析
研究聚焦於 Vision Transformer 內部激活的可解釋性,提出跨層轉碼器作為稀疏、深度感知的代理模型,利用編碼‑解碼重建激活並分解最終表徵。實驗證明 CLT 在多資料集上保持高重建忠實度,甚至提升零樣本分類準確率,且層貢獻分數顯示關鍵層對表徵影響顯著。
深度分析
測試時適應面臨資料分布差異問題。IMSE 透過 Vision Transformer 的奇異值分解僅調整奇異值,並加入多樣性最大化損失防止特徵崩解。實驗證明在 CTTA 情境提升 3.4 個百分點,同時參數需求減少 385 倍。
Vision Transformer
研究針對視覺 Transformer 前饋層的二次特徵設計提出正交二次補充(OQC),透過低秩輔助分支並投影至主分支的正交補集,以避免資訊重疊。完整 OQC 在 CIFAR‑100 上將基線提升至 65.59%,OQC‑LR 提供更佳速度‑準確率平衡,動態門控版本在 TinyImageNet 上再增 1.43 點。此方法顯示出提升表徵幾何與類別分離的潛力。