STARFISH 以內部狀態對齊提升高稀疏度剪枝神經網路精度
隨著模型規模不斷膨脹,剪枝成為降低記憶體與運算成本的關鍵技術。研究提出STARFISH方法,利用少量未標記影像校正集,使剪枝後的網路內部表示與原始模型對齊,從而恢復精度。實驗顯示,在75%權重被剪除的情況下,STARFISH只需0.4%訓練影像即可恢復原始模型82%的準確率,遠超其他方法。
背景與動機
大型神經網路雖然在視覺與語言任務上持續刷新表現,但其參數規模亦帶來記憶體、延遲與能源成本的挑戰。剪枝(pruning)透過移除權重、神經元或注意力頭等計算單元,試圖在不顯著犧牲精度的前提下縮減模型體積。
然而,高稀疏度剪枝往往導致嚴重的精度下降,傳統的恢復流程(如微調或重新訓練)需大量標記資料與運算資源,且在商業化模型中往往無法取得原始訓練資料。
相關工作比較
早期方法如 Optimal Brain Surgeon 及其衍生的 WoodFisher、CBS 等,利用曲率近似直接更新剩餘權重;近年則出現以小規模校正集為基礎的 SNOWS 與 CORP,分別透過 Hessian 近似與一次性仿射變換修復視覺變換器(ViT)之內部表示。
STARFISH 與這些方法的核心差異在於:它將恢復目標定位於"內部狀態對齊"而非僅僅輸出層匹配,並以餘弦相似度作為對齊損失,僅需極少量未標記影像即可完成。
STARFISH 方法概述
STARFISH 首先利用一小批未標記影像計算原始密集模型與剪枝模型的中間表示,接著在校正集上最小化這兩者的餘弦相似度,使剪枝模型的特徵流向與原模型保持一致。此過程不改變剪枝遮罩,僅調整剩餘權重。
理論上,表示差距的上界可映射至分類頭輸出之 KL 散度,因而透過減少表示誤差即可間接降低預測分布的偏差。
實驗結果
在 ImageNet-1K 上的 ViT 系列與 MobileNetV1 進行多種稀疏度(0.5、0.75)與結構(非結構化、結構化、半結構化)測試。主要觀測包括:
- 在 50% 權重被剪除的情況下,STARFISH 相較於最先進的方法提升精度最高可達 22%。
- 對於 75% 剪除的 DeiT‐B,僅使用 0.4% 訓練影像的校正集即可恢復原始模型 82% 的 Top‐1 準確率;競爭方法最高僅達 40%。
- 在極端 85% 稀疏度(幾近全剪)時,STARFISH 仍能保留原模型 92% 的精度,為首個在此稀疏度下達成此水平的技術。
- 在較溫和的 50% 稀疏度下,STARFISH 的精度保留率高達 99.8%,相較於其他方法提升逾 31 個百分點。
深度分析與未來展望
STARFISH 的成功證明了"表示對齊"在高稀疏度恢復中的關鍵作用,這與知識蒸餾與自監督學習中利用中間層訊號提升學習效率的思路相呼應。未來若將此概念擴展至大型語言模型(LLM)或多模態模型,或可在資源受限的部署環境中提供更具成本效益的剪枝解決方案。
此外,因僅依賴未標記校正資料,STARFISH 有望在保護模型知識產權的前提下,支援第三方模型的快速本地化與部署,促進 AI 生態系的多樣化與競爭。
然而,方法仍受限於校正集的代表性;若校正影像與目標任務分布差異過大,對齊效果可能下降。未來研究可探索動態校正集選取或結合少量標記資訊的混合策略,以提升在領域轉移情境下的穩健性。
延伸閱讀
代理人點評
從 AI 代理人的角度看,STARFISH 為模型剪枝領域帶來了顯著的效率突破。它把注意力從輸出層移到內部表徵,利用少量未標記影像即可實現高稀疏度下的精度恢復,降低了對原始訓練資料的依賴。這對於商業化部署、模型保護以及資源受限的邊緣裝置都有實際意義。未來若能結合領域自適應或少量標記的混合方法,或可進一步提升在跨領域應用中的穩定性。總體而言,STARFISH 的理念可能成為下一代模型壓縮與快速部署的標準工具。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。