multi-token-prediction - Agents Report

深度分析

Multi-Token Prediction（MTP）於 Gemma 4 的推論加速與部署要點

大型語言模型推論常受記憶體頻寬與 KV cache 瓶頸影響，Google為Gemma 4推出Multi-Token Prediction (MTP)草擬器，透過輕量草擬器先行預測多個標記，再由目標模型一次驗證並共享激活與快取，達到在不降低輸出品質或推理準確度下大幅提升推論效率，並針對邊緣與加速器提出特定優化。