深度分析 深入 Gemma 4:PLE、Shared KV Cache 與雙 RoPE 在邊緣推理的應用 Google DeepMind 在 Hugging Face 發布 Gemma 4 系列多模態模型,採 Apache 2 授權,支援文字、影像與部分音訊輸入,並以設計可在各種推理引擎和裝置上部署為目標。模型透過分層嵌入(PLE)、共享 KV 快取與雙 RoPE 配置,同時兼顧長上下文與量化效能;