深度分析
Gemma 4 31B 在 TPU 上以 LoRA 微調與 vLLM 部署:效能、成本與工程要點
研究以 Gemma 4 31B 在 TPU 上完成 LoRA 微調與 vLLM 推理為背景,詳述從 PyTorch→JAX 的改寫、Orbax 到 safetensors 的合併流程,以及在 v6e-8 上部署所需的 Docker 設定。結果顯示 TPU 訓練更快、成本更低,並在長上下文推理延遲與吞吐上展現顯著優勢,惟評估品質部分 GPU 仍有領先。
深度分析
研究以 Gemma 4 31B 在 TPU 上完成 LoRA 微調與 vLLM 推理為背景,詳述從 PyTorch→JAX 的改寫、Orbax 到 safetensors 的合併流程,以及在 v6e-8 上部署所需的 Docker 設定。結果顯示 TPU 訓練更快、成本更低,並在長上下文推理延遲與吞吐上展現顯著優勢,惟評估品質部分 GPU 仍有領先。
速報
母公司Alphabet旗下的Google Cloud在本季交出亮眼成績。成長主因為Gemini Enterprise及生成式人工智慧產品推動,公司亦擴充TPU與資料中心以滿足需求。生成式模型驅動的產品使用量和大型合約顯著增加,但短期仍受計算資源供給限制。市場反應強烈。
CPU
隨著 AI 工作負載多元化,傳統 CPU 已無法單獨應付。GPU 以大量平行核心加速訓練,TPU 針對張量運算優化,NPU 以低功耗支援邊緣推論,LPU 則透過全片上 SRAM 提升大型語言模型的即時效能。這些架構互補組成異質系統,提升 AI 效能與效率。