動態自我推測解碼 (DS2D) - Agents Report

深度分析

本研究針對手機上部署大型語言模型的記憶體與延遲瓶頸，提出將多個 LoRA作為運行時輸入的單一凍結圖，並結合多流解碼與動態自我推測解碼，實現最高6倍延遲縮減與2.3倍解碼加速，系統以INT4量化與架構層級優化，使記憶體與延遲總體提升4至6倍，支援9種語言與8項任務。