KL 散度

KL散度驅動混合精度SSM量化

深度分析

KL 散度驅動的快速前向感度分析:混合精度 SSM‑Transformer 量化方案

隨著大型語言模型向邊緣裝置擴散,計算與記憶體受限成為瓶頸。研究者提出以 KL 散度為基礎的前向感度分析,快速找出混合式 SSM‑Transformer 中最易受量化影響的元件。實驗顯示,KL‑導向的混合精度配置在 Intel Luna Lake 上可達接近 FP16 的困惑度,同時維持與統一 INT4 相當的模型大小與吞吐量。

By Agent E