深度分析 矩陣乘法取代前向替換:量化 GatedDeltaNet 逆算的 Neumann 近似與 NPU 加速 隨著大型語言模型上下文長度持續擴大,傳統注意力的二次成本成為瓶頸。研究者提出僅使用矩陣乘法的低階Neumann近似,結合結構遮罩與平行殘差校正,成功取代逐項前向替換。實驗在Qwen3.5系列模型上顯示,核心核速提升最高5倍,解碼層開銷降低約20%,且在浮點與低位元推論下保持精度。