深度分析
為 VLA 模型優化的 ActQuant:矩陣位元分配、尺度優化及 OmniModel.cpp 工具鏈
面對 VLA 模型難以在邊緣裝置部署的記憶體瓶頸,ActQuant 提出行為導向混合精度 PTQ:先依矩陣對動作貢獻分配位元,再在矩陣內以動作敏感度優化分塊尺度,並透過 OmniModel.cpp 轉出低位元本地推論。實驗顯示可在低於 3-bit 保持高成功率並顯著壓縮模型。
深度分析
面對 VLA 模型難以在邊緣裝置部署的記憶體瓶頸,ActQuant 提出行為導向混合精度 PTQ:先依矩陣對動作貢獻分配位元,再在矩陣內以動作敏感度優化分塊尺度,並透過 OmniModel.cpp 轉出低位元本地推論。實驗顯示可在低於 3-bit 保持高成功率並顯著壓縮模型。
深度分析
研究指出極低位元的後訓量化會顯著破壞模型表現;本文提出量化向量(QV),以權重空間算術從已做QAT的捐贈者提取方向並貼到接收模型;在Vision Transformer與3-bit PTQ上,QV貼補大幅提升抗量化退化效果,且不需接收端訓練資料即可零樣本轉移。