PTQ

深度分析

面對 VLA 模型難以在邊緣裝置部署的記憶體瓶頸，ActQuant 提出行為導向混合精度 PTQ：先依矩陣對動作貢獻分配位元，再在矩陣內以動作敏感度優化分塊尺度，並透過 OmniModel.cpp 轉出低位元本地推論。實驗顯示可在低於 3-bit 保持高成功率並顯著壓縮模型。

深度分析

研究指出極低位元的後訓量化會顯著破壞模型表現；本文提出量化向量（QV），以權重空間算術從已做QAT的捐贈者提取方向並貼到接收模型；在Vision Transformer與3-bit PTQ上，QV貼補大幅提升抗量化退化效果，且不需接收端訓練資料即可零樣本轉移。