共享 KV 快取

深度分析

Gemma 4：以分層嵌入、共享 KV 快取與雙 RoPE 支援多模態與邊緣部署

Gemma 4 是 Google DeepMind 在 Hugging Face 上公開的多模態模型系列，採 Apache 2 授權，支援文字、影像與部分音訊輸入，並以本地與邊緣部署為目標。核心設計包含分層嵌入（PLE）、共享 KV 快取與雙 RoPE 配置，視覺編碼支援可變長寬比與多種影像 token 預算，兼顧長上下文與量化效能。

深度分析

Gemma 4：面向裝置端與長上下文的多模態模型（Per‑Layer Embeddings、共享 KV 快取）

DeepMind推出Gemma4，帶來可在裝置端運行的多模態模型。它支援影像、文字與語音輸入，採用每層嵌入與共享KV快取、雙RoPE與滑動窗＋全域注意力設計，兼顧長上下文與量化效率；測試顯示大型密集模型在文字基準得分領先，MoE在較低活化參數下接近同級表現。