音訊-語言模型挑戰構音障礙語音:ASR提示策略與LoRA微調評測
自動語音辨識對構音障礙語音仍脆弱。本研究用SAP資料檢視診斷與臨床提示是否幫助音訊-語言模型,發現提示改進有限;LoRA微調搭配混合提示將WER降至0.066,對部分族群帶來顯著提升,並指出唐氏症與輕度語者受益最明顯,研究為測試更具包容性的ASR進步提供基準。
音訊-語言模型在構音障礙語音的提示與微調評估
自動語音辨識對構音障礙與其他非典型語音仍然脆弱。本研究基於Speech Accessibility Project建立基準,測試診斷標籤、臨床語音評分與更詳盡的臨床描述在推播提示下是否能改善轉寫。
跨九款模型的匹配比較發現,直接將臨床上下文作為提示並未帶來實質改善,甚至常使詞錯率退步。以LoRA進行情境相關微調、並混合多種提示格式,詞錯率降至0.066,相對凍結基線減少約52%,且在無提示情況下仍維持表現。組別分析顯示唐氏症與輕度語者獲得明顯收益。研究同時提供一個可衡量進展的測試床,助力更包容的ASR發展。
延伸閱讀
- 精選子集與回歸加權:HUMANS 為大型語音模型建立以人為本的評估基準
- Sony AI 發布 Woosh:開源聲音特效基礎模型與多模態生成技術
- UAF 統一音訊前端大模型:一次性整合 VAD、說話者辨識與 ASR 的全雙工語音系統
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。