深度分析 Multi-Token Prediction(MTP)於 Gemma 4 的推論加速與部署要點 大型語言模型推論常受記憶體頻寬與 KV cache 瓶頸影響,Google為Gemma 4推出Multi-Token Prediction (MTP)草擬器,透過輕量草擬器先行預測多個標記,再由目標模型一次驗證並共享激活與快取,達到在不降低輸出品質或推理準確度下大幅提升推論效率,並針對邊緣與加速器提出特定優化。