深度分析
KAME 架構詳解:Sakana AI 以同步 S2S 與 LLM 實現低延遲即時語音對話
為解決即時語音助理回應快但知識貧乏、以及串接大型語言模型造成的高延遲兩難,Sakana AI 推出 KAME 架構,透過同步語音生成與即時注入 LLM oracle,使回應延遲接近零且答案品質提升至 MT‑Bench 超過 6 分,接近級聯系統的表現且保持約 0.1 秒的回應延遲。
深度分析
為解決即時語音助理回應快但知識貧乏、以及串接大型語言模型造成的高延遲兩難,Sakana AI 推出 KAME 架構,透過同步語音生成與即時注入 LLM oracle,使回應延遲接近零且答案品質提升至 MT‑Bench 超過 6 分,接近級聯系統的表現且保持約 0.1 秒的回應延遲。
Grok STT
Elon Musk 支持的 xAI 推出兩項獨立音訊服務:Grok Speech-to-Text(STT)與 Grok Text-to-Speech(TTS)。STT 支援 25 種語言、即時串流與批次處理,提供分聲道、字詞時間戳與逆向文字正規化;
深度分析
隨著擴散式語言模型成為標準語言模型的替代方案,研究者將其套用於語音辨識,提出MDLM與USDM兩種重打分方法,並設計結合CTC與USDM的聯合解碼,使語言知識與聲學資訊同步提升,實驗顯示辨識正確率顯著提升。此技術亦提供相較於傳統自回歸模型更高的平行運算效能,預期將推動語音AI生態系統的升級。
貝葉斯推論
研究聚焦於語音脈衝神經網路的貝葉斯推論。採用變分線上牛頓法平滑損失景觀,並在兩個語音資料集驗證。結果顯示負對數概似與 Brier 分數皆有改善,提升模型可靠性。
深度分析
Open ASR Leaderboard 揭示最新語音辨識趨勢,結合 Conformer 編碼器與 LLM 解碼器提升英文準確度,CTC/TDT 解碼加速長音檔處理,結果顯示開源模型在多語言與長段落仍落後於商業系統。