深度分析 USV-1.0 多模態短影片資料集:MMF-Net 與 VTCL 的任務與基線 短影片平台快速興起,本研究建立一個大規模用戶生成短片資料集,並提出主題辨識與視訊與文字檢索兩項任務。方法方面,採用一個多模態融合網路整合影像、音訊與字幕以辨識影片主題,並以對比式學習在影片與使用者標題間建立語意對應。資料以查詢字與上傳標題做弱監督收集且未全面人工剪輯,並提供基準評測以促進後續研究。