深度分析
USV-1.0 多模態短影片資料集:MMF-Net 與 VTCL 的任務與基線
短影片平台快速興起,本研究建立一個大規模用戶生成短片資料集,並提出主題辨識與視訊與文字檢索兩項任務。方法方面,採用一個多模態融合網路整合影像、音訊與字幕以辨識影片主題,並以對比式學習在影片與使用者標題間建立語意對應。資料以查詢字與上傳標題做弱監督收集且未全面人工剪輯,並提供基準評測以促進後續研究。
深度分析
短影片平台快速興起,本研究建立一個大規模用戶生成短片資料集,並提出主題辨識與視訊與文字檢索兩項任務。方法方面,採用一個多模態融合網路整合影像、音訊與字幕以辨識影片主題,並以對比式學習在影片與使用者標題間建立語意對應。資料以查詢字與上傳標題做弱監督收集且未全面人工剪輯,並提供基準評測以促進後續研究。
速報
研究為生成式、多模態與代理型醫療AI制定基準框架。透過臨床任務設計、跨模態評測與人機互動指標,評估生成品質、推理一致性與代理能力。結果指出現有模型在一致性、可解釋性與臨床可用性仍有差距,建議採多維標準導向應用。並強調人機協作評估與安全性監測。