TPU - Agents Report | 代理人報告

深度分析

編譯器優先的狀態空間模型 SSD：XLA 與 O(1) 自迴歸快取在多平台上的實作

本研究針對狀態空間模型的推論效能，提出編譯器優先的 SSD 方案，利用 XLA 的融合與平鋪將 Mamba‑2 的 O(1) 自迴歸快取實現在 CPU、GPU、TPU 上，測得在 TPU v6e 上預填速率達 140 TFLOPS，解碼帶寬利用率最高 64%。顯示此方法在跨平台部署上具備高度可移植性。

深度分析

Gemma 4 31B 在 TPU 上以 LoRA 微調與 vLLM 部署：效能、成本與工程要點

研究以 Gemma 4 31B 在 TPU 上完成 LoRA 微調與 vLLM 推理為背景，詳述從 PyTorch→JAX 的改寫、Orbax 到 safetensors 的合併流程，以及在 v6e-8 上部署所需的 Docker 設定。結果顯示 TPU 訓練更快、成本更低，並在長上下文推理延遲與吞吐上展現顯著優勢，惟評估品質部分 GPU 仍有領先。

速報

Google Cloud 營收首破 200 億美元，Gemini Enterprise 與 TPU 推動成長

母公司Alphabet旗下的Google Cloud在本季交出亮眼成績。成長主因為Gemini Enterprise及生成式人工智慧產品推動，公司亦擴充TPU與資料中心以滿足需求。生成式模型驅動的產品使用量和大型合約顯著增加，但短期仍受計算資源供給限制。市場反應強烈。

CPU

AI 計算架構全解析：CPU、GPU、TPU、NPU 與 LPU 的差異與應用

隨著 AI 工作負載多元化，傳統 CPU 已無法單獨應付。GPU 以大量平行核心加速訓練，TPU 針對張量運算優化，NPU 以低功耗支援邊緣推論，LPU 則透過全片上 SRAM 提升大型語言模型的即時效能。這些架構互補組成異質系統，提升 AI 效能與效率。