深度分析 階段感知基準與 OPMASK:行動LLM 中 NPU 與 CPU 的 Prefill/Decode 性能剖析 行動裝置部署大型語言模型面臨算力、記憶體與能耗限制。本研究在CPU與NPU異質SoC上進行分階段基準測試,提出OPMASK管線拆解方法以隔離通訊、量化與計算開銷,並做操作層剖析。結果顯示Prefill階段CPU優於NPU,而Decode僅小幅加速,排程與跨後端回退削弱NPU效益。