大型語言模型 - Agents Report

深度分析

研究指出傳統量化僅支援整數位元寬度，造成模型與硬體記憶不匹配。LiftQuant透過高維提升再投影，使位元寬度可連續調整，如2.4位元即可完整填滿24GBGPU，效能超越同等2位元方案。此技術有望降低大型模型服務成本，提升即時回應效能，並為邊緣裝置部署開闢新路。