動態放大 - Agents Report

深度分析

為提升視覺語言模型在場景文字與文件解析等細粒度任務的表現，研究提出CropVLM，可在推論時自動放大關鍵影像區域。該系統以強化學習訓練，無需人工標註框或高成本合成評估，且可與開源或商用模型即插即用。實驗顯示在高解析度需求的基準測試中顯著提升準確度，且不會導致模型遺忘。