視覺—語言模型 - Agents Report

深度分析

研究以KnotBench用結繩圖示檢驗視覺語言模型能力。資料集以八五八三一八張渲染搭配Reidemeister變換產生多樣圖像，並透過十四項任務分離像素感知與符號操作兩步。結果顯示多數模型雖能辨識圖形要素，卻無法穩定執行等價判斷、轉錄或動作預測，思考模式僅有限改善整體表現。