互動式語音辨識 - Agents Report

深度分析

Agentic ASR：以多回合語意校正與 S2ER 強化互動式語音辨識

隨著語音成為大型語言模型與助理的主要輸入介面，傳統單次轉錄的 ASR 容易在含命名實體、口音或混語場景中產生難以修復的語意錯誤。該研究把互動式語音辨識（Interactive ASR）定義為一個有狀態的多回合精修任務，提出 Agentic ASR：結合單次 ASR 前端與基於大型模型的語意校正、意圖路由與推理式編輯，構成閉環修正流程。