Qwen3‑ASR

深度分析

FormalASR：端到端中文語音直接生成正式書面文本的模型與實驗評估

自動語音辨識多以逐字稿為目標，難直接供文件使用。FormalASR 透過兩組 0.6B、1.7B 的端到端模型，將中文語音直接轉寫為正式書面語，免除後端大語言模型。實驗顯示相較於逐字基線，字元錯誤率降低最高 37.4%，且適合在裝置上部署，於 WenetSpeech‑Formal 與 Speechio‑Formal 測試中均有提升。

深度分析

用 Qwen3‑ASR 微調的 FormalASR：整合語體正規化的端到端語音轉寫

語音辨識的逐字輸出常帶有語助詞與口語結構，不適合作為正式文件。FormalASR提出端到端中文語音直譯為書面文本，使用LLM重寫建立大規模spoken‑to‑formal訓練資料並對0.6B與1.7B模型做監督式微調，無需部署時再用大型語言模型，實驗顯示能明顯降低字符錯誤率並提升語意相似度。