simd-kernels - Agents Report

深度分析

大型語言模型在消費者端部署仍受成本與硬體限制。Litespark以自訂SIMD核心把三值權重化為整數加減與硬體點積指令，取代浮點矩陣乘法並封裝為易用套件。此做法在多平台測試可明顯縮短首字元延遲、提升吞吐並大幅降低記憶體使用。並且在筆電與桌機等現有消費裝置上可直接部署，降低對資料中心GPU的依賴。