Desmos - Agents Report | 代理人報告

深度分析

VAMPS 基準揭示多模態大語言模型在圖形輔助數學解題的瓶頸

本研究針對多模態大型語言模型在圖形輔助數學解題上的表現差距，推出首個波斯文‑英雙語 VAMPS 基準，測試模型自行生成圖形並以視覺證據作答，結果顯示直接文字推理仍優於工具視覺解題。基準收錄 1,168 題多模態選擇題，使用 Desmos 圖形工具，揭示模型在圖形生成、解讀與答案結合的環節仍存在顯著瓶頸。