時間可控語音 - Agents Report

TiCo

TiCo：透過 STM 與 RLVR 為語音對話模型加入時間可控性

TiCo提出一套簡單且高效的後訓練方法，讓語音對話模型在生成回應時具備時間意識。核心做法是在中間語意表示中插入「口語時間標記（Spoken Time Markers）」，透過自我生成資料構造時間監督訊號，接著用可驗證獎勵的強化學習（RLVR）微調模型，使其在生成過程中估計已講時長並調整剩餘內容以符合目標時長。