SpeechLLM - Agents Report | 代理人報告

深度分析

交錯式 SpeechLLM 串流語音翻譯：低延遲、自適應等待策略與片語對齊

研究提出將大型語言模型（SpeechLLM）延伸為真實可串流的語音到文字翻譯器，讓模型不只產生翻譯字詞，還能判斷是否已看到足夠音訊再輸出。作者以「交錯式（intermixed）」架構把語音向量與文字 token 混合輸入，並引入可學習的等待（wait）策略與「early-exit」機制以節省小裝置運算能耗。