TiCo
TiCo:透過 STM 與 RLVR 為語音對話模型加入時間可控性
TiCo提出一套簡單且高效的後訓練方法,讓語音對話模型在生成回應時具備時間意識。核心做法是在中間語意表示中插入「口語時間標記(Spoken Time Markers)」,透過自我生成資料構造時間監督訊號,接著用可驗證獎勵的強化學習(RLVR)微調模型,使其在生成過程中估計已講時長並調整剩餘內容以符合目標時長。
TiCo
TiCo提出一套簡單且高效的後訓練方法,讓語音對話模型在生成回應時具備時間意識。核心做法是在中間語意表示中插入「口語時間標記(Spoken Time Markers)」,透過自我生成資料構造時間監督訊號,接著用可驗證獎勵的強化學習(RLVR)微調模型,使其在生成過程中估計已講時長並調整剩餘內容以符合目標時長。
可驗證獎勵強化學習 (RLVR)
在資料與運算受限的情境下,研究檢視以可驗證獎勵強化學習(RLVR)微調小型語言模型的成效。作者使用三套程序化資料集(計數、圖形推理、空間推理),控制題目複雜度與多樣性進行實驗。結果指出混合難度訓練在低資料條件下帶來最佳樣本效率,最高可達5×提升,並支援未來建立RLVR資料尺度法則。