深度分析 LlamaWeb:為 llama.cpp 提供 WebGPU 後端,實現瀏覽器端記憶體節省與性能可攜的 LLM 推論 背景:瀏覽器執行大型語言模型能提升隱私與可及性但受限於記憶體與異構硬體。核心做法:LlamaWeb以llama.cpp為基礎,採靜態記憶體規劃、預分配參數緩衝、避免冗餘載入並用模板化GPUkernels支援多種量化格式。主要結果:實驗顯示記憶體需求平均降低29–33%且解碼吞吐提升45–69%。