深度分析 KnotBench:用結繩圖示量化視覺—語言模型的感知—操作差距 研究以KnotBench用結繩圖示檢驗視覺語言模型能力。資料集以八五八三一八張渲染搭配Reidemeister變換產生多樣圖像,並透過十四項任務分離像素感知與符號操作兩步。結果顯示多數模型雖能辨識圖形要素,卻無法穩定執行等價判斷、轉錄或動作預測,思考模式僅有限改善整體表現。