深度分析
Thinking Machines 的互動模型:以全雙工即時輸入/輸出與 encoder-free 早期融合重塑多模態互動
Thinking Machines發布互動模型研究預覽,提出把互動性視為模型的原生能力,改變過去「輪替式」的輸入—處理—回應流程。該架構以全雙工、多流微回合設計,將音訊以dMel、影像以小貼塊投入輕量嵌入層,採編碼器免除的早期融合從頭共同訓練,並以互動模型與後台模型雙系統分工,達成同步聆聽與回應、同時維持後台深度推理。
深度分析
Thinking Machines發布互動模型研究預覽,提出把互動性視為模型的原生能力,改變過去「輪替式」的輸入—處理—回應流程。該架構以全雙工、多流微回合設計,將音訊以dMel、影像以小貼塊投入輕量嵌入層,採編碼器免除的早期融合從頭共同訓練,並以互動模型與後台模型雙系統分工,達成同步聆聽與回應、同時維持後台深度推理。
深度分析
隨著語音對話模型從傳統輪流交談轉向即時全雙工互動,研究者提出Game‑Time基準測試模型的時間感知、節奏與同步能力。基準結合基本指令任務與加入時限、節拍、重疊等進階限制。實驗顯示即便最先進商業模型在基本任務表現良好,加入時間約束後普遍性能大幅下降,凸顯當前語音模型缺乏時間意識的關鍵缺口。