DeepSpeak-Agentic:首個超過 37 小時人機對話視訊資料集
研究團隊公布 DeepSpeak-Agentic 資料集,收錄超過 37 小時的人類與具身 AI 代理人半結構化對話影片。資料集支援音訊、影像與文字層面的 AI 代理人鑑識,並用於分析人機互動特性,同時提供未來大型語言模型、語音與臉部生成技術的基準測試。
研究團隊公開了 DeepSpeak-Agentic 資料集,包含超過 37 小時的半結構化對話影片,對象是人類與具身 AI 代理人。
資料集與應用
資料集支援音訊、影像與文字三種模式的自動鑑識,讓研究者能測試 AI 代理人在不同媒介下的辨識難度,並分析人機互動的行為模式。
可擴充的擷取系統
團隊同時推出一套可規模化的資料擷取系統,流程包括自動生成 AI 代理人、與眾包工作者配對、在預設情境中錄製視訊,最後自動辨識並分離人類與 AI 的音視訊流。
未來影響
此資料集將成為大型語言模型、語音合成與臉部生成技術的基準,協助業界與學術界提升具身 AI 代理人的安全性與可解釋性。
延伸閱讀
- 從提示到情境:CCAI 本體論在生成式人工智慧協作中的實作
- MOOSE-Copilot:以 HAII 協議與樹狀可視化串接 LLM 的探索與精細化流程
- Eliot:以 MiniLM 嵌入、UMAP 與凝聚式聚類實現查詢時 arXiv 論文叢集與時間視覺化
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。