深度分析 EchoDistill:以逐詞級對齊與GRPO強化音訊大模型(ALLM)在噪聲下的語義魯棒性 EchoDistill提出一種對齊式的「從噪到淨」自蒸餾訓練框架,利用凍結的乾淨音訊教師為帶噪學生提供語義參考,並在訓練時讓學生在噪聲條件下展開多條候選生成軌跡。透過群體相對策略優化(GRPO)結合逐詞級的令牌對齊獎勵與音訊感知的獎勵塑形,EchoDistill鼓勵模型在雜訊下依據真實聲學證據做出推理,而非退回語言先驗。