深度分析
點雲、影像與文字比較:ScanReQA 揭示 3D LLM 的空間推理限制
研究探討點雲是否提升3D大語言模型的空間推理能力。作者以文字、影像與點雲相互替換輸入,並提出ScanReQA基準評估二元空間關係與絕對座標理解。實驗顯示純文字或影像輸入仍能取得競爭成績,模型對點雲注意力偏低且在細緻關係推理上表現有限,指出3D LLM在利用點雲結構座標進行精細推理上存在瓶頸。
深度分析
研究探討點雲是否提升3D大語言模型的空間推理能力。作者以文字、影像與點雲相互替換輸入,並提出ScanReQA基準評估二元空間關係與絕對座標理解。實驗顯示純文字或影像輸入仍能取得競爭成績,模型對點雲注意力偏低且在細緻關係推理上表現有限,指出3D LLM在利用點雲結構座標進行精細推理上存在瓶頸。
深度分析
本文質疑視覺語言模型是否能以度量化數字表徵空間。作者提出SpaceNum框架,涵蓋動態轉移與靜態佈局,並以Num2Space與Space2Num兩項雙向任務評估模型在視覺與語言間的數值映射。實驗指出多數模型無法以穩定座標語意生成或解讀數字,表現接近隨機。
速報
背景:程式化影片生成被視為可提供幾何與時間一致性的替代方法。該研究推出PRISM基準,蒐集10372組人類校準的指令與程式碼配對,並以四項指標評估執行性、空間推理、提示感知動態複雜度與時間密度。結果顯示從可執行到空間通過率平均下降約41%,突顯可執行性無法代表視覺空間一致性。
深度分析
研究指出 RLVR 可能僅放大預訓練行為,缺乏視覺推理驗證。作者以 Ariadne 合成迷宮調控難度,發現 RLVR 能突破基礎 VLM 0% 正確率的空間推理上限。零樣本測試於 MapBench 與 ReasonMap 亦顯著提升,顯示能力真實擴張。
大型語言模型
研究提出 CheeseBench 基準,以九種老鼠行為神經科學任務測試大型語言模型。模型在純文字 ASCII 環境下需自行探索目標,最佳 7B 參數模型達 52.6% 成功率,仍低於老鼠基準。結果顯示規模提升、上下文長度與提示方式對表現影響顯著。
深度分析
隨著大型模型在空間推理需求上升,研究者提出 SCBench 以階層任務測試模型的內部環境表徵與規劃能力。透過可驗證的執行輸出,三款前沿模型在能力層級上呈遞減趨勢,且低代幣預算即獲顯著提升,失敗多因全域約束違反。(原文未詳述)
深度分析
研究針對空間推理與行動之間的差距提出 Spatial‑Gym 測試平台,透過 2D 網格迷宮的逐步決策任務評估模型。實驗比較一次性、步驟式與回溯三種設定下八個模型與人類、隨機、A* 基線的表現。結果顯示即使是最佳模型 GPT‑OSS 120B 只解出 16%,遠低於人類的 98%,且步驟式互動對弱模型有提升,但對強模型有負面影響。