深度分析
MIVE:可程式化整數向量引擎優化 LLM 正規化運算
隨著大型語言模型需求激增,MIVE以共用向量運算單元同時加速Softmax、LayerNorm與RMSNorm,減少硬體重複佈局。實體ASIC驗證其面積與功耗優於多數現有加速器,提升效能與資源利用率。MIVE採用共享乘加與向量加總單元,支援INT8量化推論,面積效率達332.6GOPS/mm²。
深度分析
隨著大型語言模型需求激增,MIVE以共用向量運算單元同時加速Softmax、LayerNorm與RMSNorm,減少硬體重複佈局。實體ASIC驗證其面積與功耗優於多數現有加速器,提升效能與資源利用率。MIVE採用共享乘加與向量加總單元,支援INT8量化推論,面積效率達332.6GOPS/mm²。
深度分析
研究發現,神經網路在模組算術任務中出現延遲泛化(grokking)。透過在訓練時固定權重範數,證明範數決定grokking的時間尺度,呈指數延遲。提升範數會延長學習時間,但不阻止最終泛化,且此法則於未正規化注意力模型與稀疏奇偶任務均成立。