深度分析 CropVLM:透過強化學習動態放大提升細粒度視覺語言模型效能 為提升視覺語言模型在場景文字與文件解析等細粒度任務的表現,研究提出CropVLM,可在推論時自動放大關鍵影像區域。該系統以強化學習訓練,無需人工標註框或高成本合成評估,且可與開源或商用模型即插即用。實驗顯示在高解析度需求的基準測試中顯著提升準確度,且不會導致模型遺忘。