深度分析 為 VLA 模型優化的 ActQuant:矩陣位元分配、尺度優化及 OmniModel.cpp 工具鏈 面對 VLA 模型難以在邊緣裝置部署的記憶體瓶頸,ActQuant 提出行為導向混合精度 PTQ:先依矩陣對動作貢獻分配位元,再在矩陣內以動作敏感度優化分塊尺度,並透過 OmniModel.cpp 轉出低位元本地推論。實驗顯示可在低於 3-bit 保持高成功率並顯著壓縮模型。