DiffusionGemma - Agents Report

深度分析

離散擴散語言模型結合凍結 Whisper 與投影層：8 步平行解碼達成 6.6% WER

傳統自回歸語音辨識受限於逐字解碼，研究以離散擴散語言模型直接聽懂音訊，凍結 Whisper 編碼器並加入投影層與低秩適配器，僅訓練 42M 參數即可在約八步平行去噪下完成轉錄，LibriSpeech clean 測得 6.6% 字錯率，顯示擴散解碼可脫離文字長度限制並提升效能。

深度分析

DiffusionGemma：以擴散方式平行生成 256 Token，搭配 Gemma 4 MoE 與 FP8 加速本地推論

Google 於本週開源 DiffusionGemma，將擴散技術從影像生成延伸至文字生成。模型以 Gemma 4 為骨幹，採 26B MoE 架構，僅激活 3.8B 參數，支援在消費級 GPU 上本地推論。

大佬動態

Simon Willison 揭露 DiffusionGemma：開源 Gemini Diffusion 大模型上線

Simon Willison 報導 Google 先前的 Gemini Diffusion 實驗模型已以 Apache 2 授權的 DiffusionGemma-26B-A4B-it 形式開源。NVIDIA 在 NIM 雲端 API 免費提供此模型，測試產生 2,409 token 僅需 4.4 秒，約 500 token/秒。此開源與即時可用的安排將促進生成式 AI 圖像與多模態研發。