深度分析 MaskCaptioner:結合 OVFormer 與 Gemini 2.0 Flash VLM 的密集影片物件標註新框架 研究提出MaskCaptioner,利用先進視覺語言模型自動產生影片中每個物件的遮罩與文字敘述,並以LVISCap與LV‑VISCap兩套合成資料集進行端到端訓練,於VidSTG、VLN與BenSMOT三大基準創下最新成績,顯示合成標註可提升密集影片敘述效能。