語音活動偵測

統一音訊前端 VAD 及辨識示意

深度分析

UAF 統一音訊前端大模型：一次性整合 VAD、說話者辨識與 ASR 的全雙工語音系統

隨著全雙工語音交互需求提升，研究者提出UAF統一音訊前端大模型，將VAD、說話者辨識、ASR與問答等任務合併為單一序列預測，實驗顯示在延遲與中斷偵測上優於傳統級聯系統，同時支援說話者鎖定與即時問答，顯著降低回應延遲，此設計亦為未來語音助理的模組化與開源生態提供新方向。

即時語音信箱特徵藍色螢光圖

即時語音信箱偵測

即時語音信箱偵測：時間性語音活動特徵提升電話 AI 效能

為避免 AI 呼叫浪費人力與掉線，研究提出即時語音信箱偵測方法，利用預訓練 VAD 的時間性語音活動特徵並以淺層樹狀模型分類。實驗顯示在 764 筆測試錄音中正確率達 96.1%，大規模生產環境偽陽率僅 0.3%。此技術顯示時間語音模式是辨識語音信箱的關鍵。