瀏覽器LLM - Agents Report

深度分析

背景：瀏覽器執行大型語言模型能提升隱私與可及性但受限於記憶體與異構硬體。核心做法：LlamaWeb以llama.cpp為基礎，採靜態記憶體規劃、預分配參數緩衝、避免冗餘載入並用模板化GPUkernels支援多種量化格式。主要結果：實驗顯示記憶體需求平均降低29–33％且解碼吞吐提升45–69％。