分層嵌入 - Agents Report

深度分析

Gemma 4：以分層嵌入、共享 KV 快取與雙 RoPE 支援多模態與邊緣部署

Gemma 4 是 Google DeepMind 在 Hugging Face 上公開的多模態模型系列，採 Apache 2 授權，支援文字、影像與部分音訊輸入，並以本地與邊緣部署為目標。核心設計包含分層嵌入（PLE）、共享 KV 快取與雙 RoPE 配置，視覺編碼支援可變長寬比與多種影像 token 預算，兼顧長上下文與量化效能。