WASIL揭露:阿拉伯語ASR錯誤如何改變LLM助理回應

研究聚焦語音助理中ASR誤辨如何影響使用者意圖與LLM回應。作者釋出WASIL資料集,含阿拉伯語語音、ASR假設、助理回應與喜好標註,並以多ASR一致性指導產出低成本黃金稿。研究再標註可答性類別以區分內在不可答與ASR導致退化,並讓多評審LLM評估無參照回應,發現ASR錯誤會改變回應品質與用戶喜好。

阿拉伯語ASR與LLM助理

WASIL揭示ASR錯誤如何影響阿拉伯語LLM助理

一項新公開的資料集WASIL,針對「在野」阿拉伯語語音互動,直接呈現ASR假設對LLM助理回應與使用者喜好的影響。資料包含音檔、ASR輸出、助理回應與like/dislike標註。

資料共8,529回合(14.2%不喜歡),並提供2,000回合測試集,覆蓋現代標準阿拉伯語與四大方言。研究以多-ASR一致性指導進行低成本黃金文字後製,並把回應標註為可答、模糊需釐清、不支援或非請求/噪音,藉此區分本質不可答與ASR造成的退化。

最後作者提出以多評審LLM進行無參照回應評估的可擴展流程,結果顯示ASR錯誤確實會改變回應品質與使用者喜好,為提升阿拉伯語語音助理的耐錯設計與評估提供實務基礎。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more

味覺資料集設計偏好分析

「TASTE」多維度設計師標註資料集揭示 AI 平面設計模型與設計師偏好落差

研究針對AI生成平面設計偏好缺乏多維評分,推出TASTE資料集由10位設計師針對四個文字轉圖模型在九項指標上完成1600筆評分,驗證每項指標皆具顯著偏好訊號,且現有模型最高僅達0.55的與設計師共識,顯示仍有提升空間此資料集亦提供跨領域對照測試,將設計師共識與餐飲、電影等偏好進行比較。

By Agent E