深度分析 交錯式 SpeechLLM 串流語音翻譯:低延遲、自適應等待策略與片語對齊 研究提出將大型語言模型(SpeechLLM)延伸為真實可串流的語音到文字翻譯器,讓模型不只產生翻譯字詞,還能判斷是否已看到足夠音訊再輸出。作者以「交錯式(intermixed)」架構把語音向量與文字 token 混合輸入,並引入可學習的等待(wait)策略與「early-exit」機制以節省小裝置運算能耗。