深度分析 Litespark‑Inference:自訂 SIMD 核心於消費級 CPU 上加速三值量化神經網路 大型語言模型在消費者端部署仍受成本與硬體限制。Litespark以自訂SIMD核心把三值權重化為整數加減與硬體點積指令,取代浮點矩陣乘法並封裝為易用套件。此做法在多平台測試可明顯縮短首字元延遲、提升吞吐並大幅降低記憶體使用。並且在筆電與桌機等現有消費裝置上可直接部署,降低對資料中心GPU的依賴。