深度分析 在 Qualcomm SM8650/SM8750 NPU 上以多 LoRA 與 DS2D 加速 LLM 邊緣部署 本研究針對手機上部署大型語言模型的記憶體與延遲瓶頸,提出將多個 LoRA作為運行時輸入的單一凍結圖,並結合多流解碼與動態自我推測解碼,實現最高6倍延遲縮減與2.3倍解碼加速,系統以INT4量化與架構層級優化,使記憶體與延遲總體提升4至6倍,支援9種語言與8項任務。