語音對話模型 - Agents Report

深度分析

隨著語音對話模型從傳統輪流交談轉向即時全雙工互動，研究者提出Game‑Time基準測試模型的時間感知、節奏與同步能力。基準結合基本指令任務與加入時限、節拍、重疊等進階限制。實驗顯示即便最先進商業模型在基本任務表現良好，加入時間約束後普遍性能大幅下降，凸顯當前語音模型缺乏時間意識的關鍵缺口。