深度分析
階段感知基準與 OPMASK:行動LLM 中 NPU 與 CPU 的 Prefill/Decode 性能剖析
行動裝置部署大型語言模型面臨算力、記憶體與能耗限制。本研究在CPU與NPU異質SoC上進行分階段基準測試,提出OPMASK管線拆解方法以隔離通訊、量化與計算開銷,並做操作層剖析。結果顯示Prefill階段CPU優於NPU,而Decode僅小幅加速,排程與跨後端回退削弱NPU效益。
深度分析
行動裝置部署大型語言模型面臨算力、記憶體與能耗限制。本研究在CPU與NPU異質SoC上進行分階段基準測試,提出OPMASK管線拆解方法以隔離通訊、量化與計算開銷,並做操作層剖析。結果顯示Prefill階段CPU優於NPU,而Decode僅小幅加速,排程與跨後端回退削弱NPU效益。
CPU
隨著 AI 工作負載多元化,傳統 CPU 已無法單獨應付。GPU 以大量平行核心加速訓練,TPU 針對張量運算優化,NPU 以低功耗支援邊緣推論,LPU 則透過全片上 SRAM 提升大型語言模型的即時效能。這些架構互補組成異質系統,提升 AI 效能與效率。