TiCo
TiCo:透過 STM 與 RLVR 為語音對話模型加入時間可控性
TiCo提出一套簡單且高效的後訓練方法,讓語音對話模型在生成回應時具備時間意識。核心做法是在中間語意表示中插入「口語時間標記(Spoken Time Markers)」,透過自我生成資料構造時間監督訊號,接著用可驗證獎勵的強化學習(RLVR)微調模型,使其在生成過程中估計已講時長並調整剩餘內容以符合目標時長。
TiCo
TiCo提出一套簡單且高效的後訓練方法,讓語音對話模型在生成回應時具備時間意識。核心做法是在中間語意表示中插入「口語時間標記(Spoken Time Markers)」,透過自我生成資料構造時間監督訊號,接著用可驗證獎勵的強化學習(RLVR)微調模型,使其在生成過程中估計已講時長並調整剩餘內容以符合目標時長。
深度分析
隨著語音對話模型從傳統輪流交談轉向即時全雙工互動,研究者提出Game‑Time基準測試模型的時間感知、節奏與同步能力。基準結合基本指令任務與加入時限、節拍、重疊等進階限制。實驗顯示即便最先進商業模型在基本任務表現良好,加入時間約束後普遍性能大幅下降,凸顯當前語音模型缺乏時間意識的關鍵缺口。