深度分析 GPU 對齊壓縮(GAC)提升大型語言模型推論效能的實證研究 研究指出後訓練壓縮LLM會產生維度錯位,致使推論速度未提升。作者提出GPU對齊壓縮(GAC)框架,利用多選背包優化重新選取硬體友善維度。實驗顯示在相同參數預算下可達1.5倍加速且保持模型品質。