深度分析 用 Qwen3‑ASR 微調的 FormalASR:整合語體正規化的端到端語音轉寫 語音辨識的逐字輸出常帶有語助詞與口語結構,不適合作為正式文件。FormalASR提出端到端中文語音直譯為書面文本,使用LLM重寫建立大規模spoken‑to‑formal訓練資料並對0.6B與1.7B模型做監督式微調,無需部署時再用大型語言模型,實驗顯示能明顯降低字符錯誤率並提升語意相似度。