合成資料集 - Agents Report

深度分析

研究提出MaskCaptioner，利用先進視覺語言模型自動產生影片中每個物件的遮罩與文字敘述，並以LVISCap與LV‑VISCap兩套合成資料集進行端到端訓練，於VidSTG、VLN與BenSMOT三大基準創下最新成績，顯示合成標註可提升密集影片敘述效能。