LLM 量化 - Agents Report | 代理人報告

深度分析

少位元量化時，傳統對稱量化因尺度固定正值會裁剪正向離群值。研究提出簽名對稱量化，利用符號選擇將額外負端點對齊主導離群值，保持零點不變且無額外元資料。實驗顯示在2位元下，perplexity從103降至17，few‑shot正確率提升7.9%，同時節省約9%記憶體與提升吞吐。

深度分析

研究比較W8A8-FP、W8A8-INT與W4A16-INT三種量化格式在學術與實務基準的準確度與推論效能；採用自動化評測、文本相似度分析與vLLM在多款GPU的延遲量測；結果發現W8A8-FP近乎無損，W8A8-INT衰減輕微，W4A16在同步部署成本效益最佳。

深度分析

隨著大型語言模型量化需求提升，傳統全局旋轉受表現限制；ReSpinQuant 以子空間殘差旋轉離線融合激活，兼顧層級適應與低開銷；實驗顯示其在 W4A4、W3A3 量化下達到業界最佳精度，顯著優於全局方法。