深度分析
CropVLM:透過強化學習動態放大提升細粒度視覺語言模型效能
為提升視覺語言模型在場景文字與文件解析等細粒度任務的表現,研究提出CropVLM,可在推論時自動放大關鍵影像區域。該系統以強化學習訓練,無需人工標註框或高成本合成評估,且可與開源或商用模型即插即用。實驗顯示在高解析度需求的基準測試中顯著提升準確度,且不會導致模型遺忘。
深度分析
為提升視覺語言模型在場景文字與文件解析等細粒度任務的表現,研究提出CropVLM,可在推論時自動放大關鍵影像區域。該系統以強化學習訓練,無需人工標註框或高成本合成評估,且可與開源或商用模型即插即用。實驗顯示在高解析度需求的基準測試中顯著提升準確度,且不會導致模型遺忘。
多模態大型語言模型
隨著海上視覺應用需求增加,缺乏專屬測試集限制了研究深度。研究者推出 MARINER 基準,採用 3E 範式整合 16,629 張圖像、63 種船舶與多樣環境,涵蓋分類、偵測與問答任務。測試顯示主流多模態模型在細粒度辨識與因果推理上仍有顯著不足,突顯海事 AI 的挑戰與未來方向。