深度分析 GlowQ 以群組共享低階校正矩陣實現量化大語言模型的效能與精度雙提升 量化大語言模型常因低位元導致精度下降。GlowQ以輸入共享群組共享右因子,僅在高效益層恢復,將TTFB降5.6%,吞吐提升9.6%,在WikiText‑2上降低0.17%雜訊,同時提升下游任務0.42%準確度。選擇性版本GlowQ‑S更可削減TTFB23.4%,吞吐提升37.4%。