OPMASK - Agents Report | 代理人報告

深度分析

行動裝置部署大型語言模型面臨算力、記憶體與能耗限制。本研究在CPU與NPU異質SoC上進行分階段基準測試，提出OPMASK管線拆解方法以隔離通訊、量化與計算開銷，並做操作層剖析。結果顯示Prefill階段CPU優於NPU，而Decode僅小幅加速，排程與跨後端回退削弱NPU效益。