FunASR
FunASR:面向產業的即時流式 ASR 工具箱,支援多語與語者分離
FunASR 是一個開源的工業級語音辨識工具箱,主打高速與多語支援,宣稱比 Whisper 快約 170 倍,支援超過 50 種語言。專案將端對端語音辨識與語者分離、情緒偵測、語音活動偵測等功能整合,並提供流式辨識與 OpenAI 相容的 API,方便在產業環境中部署與整合。
FunASR
FunASR 是一個開源的工業級語音辨識工具箱,主打高速與多語支援,宣稱比 Whisper 快約 170 倍,支援超過 50 種語言。專案將端對端語音辨識與語者分離、情緒偵測、語音活動偵測等功能整合,並提供流式辨識與 OpenAI 相容的 API,方便在產業環境中部署與整合。
深度分析
近年大型語言模型(LLM)越獄攻擊研究習慣以「單一組態的攻擊成功率(ASR)」作為績效指標,但這種做法忽略了攻擊家族內部多個參數變體所帶來的覆蓋差異。本文介紹兩項補充指標:變異敏感度(VSM)與聯合覆蓋率(UC),前者量化最佳單一 ASR 與變體平均 ASR 的差距,後者衡量所有測試組態合併後能觸發不安全回應的提示比例。
深度分析
面對半雙工語音系統中級聯前端帶來的延遲與誤差累積,研究提出 UAF 統一音訊前端 LLM。此模型將 VAD、TD、SR、ASR 與 QA 都轉為自回歸序列預測,並以參考語音提示鎖定目標說話者,分段處理串流音訊。實驗顯示 UAF 在多項前端任務上達到領先表現,並能提升中斷偵測與回應時效,助於更自然的全雙工對話。