深度分析
用 Qwen3‑ASR 微調的 FormalASR:整合語體正規化的端到端語音轉寫
語音辨識的逐字輸出常帶有語助詞與口語結構,不適合作為正式文件。FormalASR提出端到端中文語音直譯為書面文本,使用LLM重寫建立大規模spoken‑to‑formal訓練資料並對0.6B與1.7B模型做監督式微調,無需部署時再用大型語言模型,實驗顯示能明顯降低字符錯誤率並提升語意相似度。
深度分析
語音辨識的逐字輸出常帶有語助詞與口語結構,不適合作為正式文件。FormalASR提出端到端中文語音直譯為書面文本,使用LLM重寫建立大規模spoken‑to‑formal訓練資料並對0.6B與1.7B模型做監督式微調,無需部署時再用大型語言模型,實驗顯示能明顯降低字符錯誤率並提升語意相似度。
深度分析
Google DeepMind 發表 Gemma 4 系列多模態模型,採 Apache 2 授權並支援文字、影像與部分音訊輸入,並強調可在多種推理引擎與平台上部署。架構採用分層嵌入(PLE)、共享 KV 快取與雙 RoPE 配置,兼顧長上下文與量化效能。
深度分析
本文報導一組針對系統動力學(System Dynamics)任務的系統性評測,涵蓋兩個基準:CLD Leaderboard(因果迴路圖結構抽取)與 Discussion Leaderboard(互動式模型討論與指導)。