npu-architecture - Agents Report

深度分析

研究指出擴散式大型語言模型的取樣階段已成為端到端延遲的主要瓶頸。論文提出向量-標量導向的NPU擴展、輕量非GEMM指令、就地記憶重用與分離混合精度記憶體，優化softmax取樣與Top-k選擇。實驗在等製程節點下展示約2.53×加速，並公開cycle-accurate模擬與RTL驗證。