Shared KV Cache - Agents Report

深度分析

Google DeepMind 在 Hugging Face 發布 Gemma 4 系列多模態模型，採 Apache 2 授權，支援文字、影像與部分音訊輸入，並以設計可在各種推理引擎和裝置上部署為目標。模型透過分層嵌入（PLE）、共享 KV 快取與雙 RoPE 配置，同時兼顧長上下文與量化效能；