SAM3 - Agents Report | 代理人報告

深度分析

視覺語言模型在回答影像問題時常缺乏可驗證的證據。研究提出視覺化思考，讓模型在自然語言推理中交錯標記點或框以指向圖像中的關鍵物件，並透過基於先進分割模型的合成管線與定位獎勵的強化學習同步訓練。實驗顯示四億參數模型的表現可媲美甚至超過同族二十七億參數模型，提升計數與空間推理準確度。