深度分析 MIST 資料集與基準:評估多模態語音到可執行 API 工具呼叫的能力 物聯網裝置暴增需要可處理語音、時空與狀態約束的助理。MIST提出一個多模態語音驅動的工具呼叫基準,包括一萬場對話、50類裝置與擴充生成框架。實驗顯示公開與封閉權重模型差距明顯,代表語音驅動的物理世界代理仍有大量進步空間。該資料集並開放生成框架,促進混合主導語音助理研究。