細粒度感知

CropVLM 強化學習動態放大

深度分析

CropVLM：透過強化學習動態放大提升細粒度視覺語言模型效能

為提升視覺語言模型在場景文字與文件解析等細粒度任務的表現，研究提出CropVLM，可在推論時自動放大關鍵影像區域。該系統以強化學習訓練，無需人工標註框或高成本合成評估，且可與開源或商用模型即插即用。實驗顯示在高解析度需求的基準測試中顯著提升準確度，且不會導致模型遺忘。

三E細粒度船舶海上視覺

多模態大型語言模型

MARINER：基於 3E 架構的海上細粒度感知與複雜推理基準

隨著海上視覺應用需求增加，缺乏專屬測試集限制了研究深度。研究者推出 MARINER 基準，採用 3E 範式整合 16,629 張圖像、63 種船舶與多樣環境，涵蓋分類、偵測與問答任務。測試顯示主流多模態模型在細粒度辨識與因果推理上仍有顯著不足，突顯海事 AI 的挑戰與未來方向。