深度分析 LiftQuant:透過提升‑再投影實現 2.4 位元量化,適配 24GB GPU 研究指出傳統量化僅支援整數位元寬度,造成模型與硬體記憶不匹配。LiftQuant透過高維提升再投影,使位元寬度可連續調整,如2.4位元即可完整填滿24GBGPU,效能超越同等2位元方案。此技術有望降低大型模型服務成本,提升即時回應效能,並為邊緣裝置部署開闢新路。