語音辨識 - Agents Report

Infographic of modular speech-to-speech AI pipeline using Nvidia, Cerebras, and Qwen TTS.

深度分析

Cerebras 加速 Gemma 4 推論，打造低延遲即時語音 AI 開源模組化管線

Hugging Face 與 Cerebras 合作，推出以 Gemma 4 為核心的即時語音 AI，採用模組化開放堆疊結合 Nvidia Parakeet、Cerebras 晶片與阿里巴巴 Qwen3 TTS，將回應延遲縮至即時，已於 9,000 多台機器人部署，提升互動自然度並示範開源與高效推論的結合。

深度分析

離散擴散語言模型結合凍結 Whisper 與投影層：8 步平行解碼達成 6.6% WER

傳統自回歸語音辨識受限於逐字解碼，研究以離散擴散語言模型直接聽懂音訊，凍結 Whisper 編碼器並加入投影層與低秩適配器，僅訓練 42M 參數即可在約八步平行去噪下完成轉錄，LibriSpeech clean 測得 6.6% 字錯率，顯示擴散解碼可脫離文字長度限制並提升效能。

深度分析

Open ASR Leaderboard 引入私密高品質語音資料集，提升 WER 評測可信度

Open ASR Leaderboard 為防止測試集污染，加入由 Appen 與 DataoceanAI 提供的私密高品質英語語音資料，涵蓋腳本與對話、不同口音。透過資料切換功能與統一正規化流程，使用者可選擇是否計入私密資料的 WER。此舉提升評測可信度，同時降低模型針對公開測試集的優化漏洞。

深度分析

梯度式語音對齊：適用於CTC、Transducer、AED與Speech‑LLM的時間戳方法

研究針對所有可微分語音辨識模型提出梯度式對齊方法，透過教師強制機率對輸入取梯度，將每個字元的顯著性映射為時間分布，再以動態規劃解碼出詞界。實驗顯示此法在十六種模型上均能產生可用對齊，雖略遜於部分原生對齊，但在串流模型弱點上表現更佳，唯一缺點是計算成本較高。

深度分析

自監督特徵結合 HiFi‑GAN 聲碼器的對抗攻擊：提升語音辨識系統安全測試效能

隨著語音辨識系統廣泛部署，研究以自監督特徵與凍結的HiFi‑GAN聲碼器產生對抗樣本，取代傳統波形噪聲。此法在黑箱模型與多種防禦下仍提升WER或CER超過30%，顯示現有防護未涵蓋此攻擊向量。研究者將對抗搜尋空間搬到自監督語音特徵，再重建成自然波形，減少對波形防禦的依賴。

深度分析

KAME 架構詳解：Sakana AI 以同步 S2S 與 LLM 實現低延遲即時語音對話

為解決即時語音助理回應快但知識貧乏、以及串接大型語言模型造成的高延遲兩難，Sakana AI 推出 KAME 架構，透過同步語音生成與即時注入 LLM oracle，使回應延遲接近零且答案品質提升至 MT‑Bench 超過 6 分，接近級聯系統的表現且保持約 0.1 秒的回應延遲。

Grok STT

Grok STT/TTS 上線：xAI 釋出獨立音訊 API，支援多語言與逐字時間戳

Elon Musk 支持的 xAI 推出兩項獨立音訊服務：Grok Speech-to-Text（STT）與 Grok Text-to-Speech（TTS）。STT 支援 25 種語言、即時串流與批次處理，提供分聲道、字詞時間戳與逆向文字正規化；

深度分析

擴散式語言模型在語音辨識中的突破：MDLM、USDM 與 CTC 聯合解碼技術分析

隨著擴散式語言模型成為標準語言模型的替代方案，研究者將其套用於語音辨識，提出MDLM與USDM兩種重打分方法，並設計結合CTC與USDM的聯合解碼，使語言知識與聲學資訊同步提升，實驗顯示辨識正確率顯著提升。此技術亦提供相較於傳統自回歸模型更高的平行運算效能，預期將推動語音AI生態系統的升級。

貝葉斯推論

貝葉斯變分推論於語音脈衝神經網路的不確定性量化與損失景觀平滑化

研究聚焦於語音脈衝神經網路的貝葉斯推論。採用變分線上牛頓法平滑損失景觀，並在兩個語音資料集驗證。結果顯示負對數概似與 Brier 分數皆有改善，提升模型可靠性。

深度分析

Open ASR Leaderboard：Conformer＋LLM 提升準確度與 CTC/TDT 加速長音檔處理

Open ASR Leaderboard 揭示最新語音辨識趨勢，結合 Conformer 編碼器與 LLM 解碼器提升英文準確度，CTC/TDT 解碼加速長音檔處理，結果顯示開源模型在多語言與長段落仍落後於商業系統。