全雙工 - Agents Report | 代理人報告

深度分析

Thinking Machines 的互動模型：以全雙工即時輸入/輸出與 encoder-free 早期融合重塑多模態互動

Thinking Machines發布互動模型研究預覽，提出把互動性視為模型的原生能力，改變過去「輪替式」的輸入—處理—回應流程。該架構以全雙工、多流微回合設計，將音訊以dMel、影像以小貼塊投入輕量嵌入層，採編碼器免除的早期融合從頭共同訓練，並以互動模型與後台模型雙系統分工，達成同步聆聽與回應、同時維持後台深度推理。

Thinking Machines 的互動模型：以全雙工即時輸入/輸出與 encoder-free 早期融合重塑多模態互動

Game‑Time 基準：評估語音對話模型的時間感知與全雙工互動能力