語音助理 - Agents Report

深度分析

物聯網裝置暴增需要可處理語音、時空與狀態約束的助理。MIST提出一個多模態語音驅動的工具呼叫基準，包括一萬場對話、50類裝置與擴充生成框架。實驗顯示公開與封閉權重模型差距明顯，代表語音驅動的物理世界代理仍有大量進步空間。該資料集並開放生成框架，促進混合主導語音助理研究。