逐詞級對齊 - Agents Report

深度分析

EchoDistill：以逐詞級對齊與GRPO強化音訊大模型（ALLM）在噪聲下的語義魯棒性

EchoDistill提出一種對齊式的「從噪到淨」自蒸餾訓練框架，利用凍結的乾淨音訊教師為帶噪學生提供語義參考，並在訓練時讓學生在噪聲條件下展開多條候選生成軌跡。透過群體相對策略優化（GRPO）結合逐詞級的令牌對齊獎勵與音訊感知的獎勵塑形，EchoDistill鼓勵模型在雜訊下依據真實聲學證據做出推理，而非退回語言先驗。