空間數值理解 - Agents Report

深度分析

本文質疑視覺語言模型是否能以度量化數字表徵空間。作者提出SpaceNum框架，涵蓋動態轉移與靜態佈局，並以Num2Space與Space2Num兩項雙向任務評估模型在視覺與語言間的數值映射。實驗指出多數模型無法以穩定座標語意生成或解讀數字，表現接近隨機。