IBM Granite Vision - Agents Report

深度分析

研究聚焦視覺語言模型的物理推理能力，透過四種獎勵訊號比較其效能。結果顯示，以答案正確性為基礎的獎勵提升最大，且注意力權重獎勵在空間推理上有顯著改善，指出監督注意力是未來提升方向。