NPU - Agents Report | 代理人報告

深度分析

研究指出缺乏硬體感知知識是LLM產生NPU核心的瓶頸。Hawk透過即時知識合成、雙維檢索與效能導向蒸餾，提高生成正確率至80%，執行速度提升最高2.2倍。相較於需大量標註資料的模型微調，Hawk免訓練即可持續累積與淨化知識，降低開發成本並加速新硬體支援，此策略有望成為未來NPU軟體堆疊的標準化路徑

深度分析

行動裝置部署大型語言模型面臨算力、記憶體與能耗限制。本研究在CPU與NPU異質SoC上進行分階段基準測試，提出OPMASK管線拆解方法以隔離通訊、量化與計算開銷，並做操作層剖析。結果顯示Prefill階段CPU優於NPU，而Decode僅小幅加速，排程與跨後端回退削弱NPU效益。

CPU

隨著 AI 工作負載多元化，傳統 CPU 已無法單獨應付。GPU 以大量平行核心加速訓練，TPU 針對張量運算優化，NPU 以低功耗支援邊緣推論，LPU 則透過全片上 SRAM 提升大型語言模型的即時效能。這些架構互補組成異質系統，提升 AI 效能與效率。