空間推理 - Agents Report

速報

AI 決策能力大考驗：Mini Amusement Parks 模擬器揭露當前系統弱點

人工智慧在真實世界決策中面臨多重挑戰，包括開放式最佳化、從稀疏經驗中學習環境動態、長期規劃、隨機環境下的策略制定，以及空間資訊推理。然而，現有基準測試無法完整評估 AI 在這些面向的整合能力。

深度分析

MentalThink：以 SVG 為基礎的多模態大語言模型視覺推理框架

Aristotle說心靈離不開影像，研究提出MentalThink以SVG作為可執行的視覺思考機制，模型在多輪推理中生成、渲染與解讀向量圖形，提升空間理解。實驗顯示在VSIBench與MindCube上分別達55.1%與76.0%精度，顯示向量圖形成為可驗證的思考工作區。

速報

DecompSR：大型語言模型空間推理組合能力基準

研究推出DecompSR大規模空間推理基準，收錄逾五百萬筆資料，能獨立調整推理深度、實體變化、輸入順序與新詞彙等組合性。此基準以程序化方式生成，並透過符號求解器驗證正確性，提供可細緻探測模型組合推理的工具。測試顯示大型語言模型在生產性與系統性推理上仍有不足。

深度分析

以強化學習驅動的 SVoT 框架實現可驗證的多步空間推理

隨著多模態大型語言模型在規劃任務上仍缺乏可靠的多步空間推理，研究提出 SVoT 以強化學習產生可驗證的中間狀態與視覺化，並加入轉移推理鏈。實驗在五個擴充的格子環境中顯示，SVoT 在跨領域測試上提升最高 65% 的準確率，顯示此框架有望提升機器人與自駕等實務應用的可靠性。

深度分析

點雲、影像與文字比較：ScanReQA 揭示 3D LLM 的空間推理限制

研究探討點雲是否提升3D大語言模型的空間推理能力。作者以文字、影像與點雲相互替換輸入，並提出ScanReQA基準評估二元空間關係與絕對座標理解。實驗顯示純文字或影像輸入仍能取得競爭成績，模型對點雲注意力偏低且在細緻關係推理上表現有限，指出3D LLM在利用點雲結構座標進行精細推理上存在瓶頸。

深度分析

SpaceNum：評估 VLM 在空間數值理解的缺口與雙向測試框架

本文質疑視覺語言模型是否能以度量化數字表徵空間。作者提出SpaceNum框架，涵蓋動態轉移與靜態佈局，並以Num2Space與Space2Num兩項雙向任務評估模型在視覺與語言間的數值映射。實驗指出多數模型無法以穩定座標語意生成或解讀數字，表現接近隨機。

速報

PRISM：揭露程式化影片生成的執行—空間落差

背景：程式化影片生成被視為可提供幾何與時間一致性的替代方法。該研究推出PRISM基準，蒐集10372組人類校準的指令與程式碼配對，並以四項指標評估執行性、空間推理、提示感知動態複雜度與時間密度。結果顯示從可執行到空間通過率平均下降約41%，突顯可執行性無法代表視覺空間一致性。

深度分析

RLVR 於視覺語言模型的空間推理突破：Ariadne 迷宮框架實驗與跨域驗證

研究指出 RLVR 可能僅放大預訓練行為，缺乏視覺推理驗證。作者以 Ariadne 合成迷宮調控難度，發現 RLVR 能突破基礎 VLM 0% 正確率的空間推理上限。零樣本測試於 MapBench 與 ReasonMap 亦顯著提升，顯示能力真實擴張。

大型語言模型

CheeseBench 基準測試：大型語言模型在老鼠行為神經科學任務的表現與洞見

研究提出 CheeseBench 基準，以九種老鼠行為神經科學任務測試大型語言模型。模型在純文字 ASCII 環境下需自行探索目標，最佳 7B 參數模型達 52.6% 成功率，仍低於老鼠基準。結果顯示規模提升、上下文長度與提示方式對表現影響顯著。

深度分析

SCBench：階層化空間推理與規劃評測框架解析

隨著大型模型在空間推理需求上升，研究者提出 SCBench 以階層任務測試模型的內部環境表徵與規劃能力。透過可驗證的執行輸出，三款前沿模型在能力層級上呈遞減趨勢，且低代幣預算即獲顯著提升，失敗多因全域約束違反。（原文未詳述）

深度分析

Spatial‑Gym：驗證大型語言模型在 2D 網格空間推理與行動的效能差距

研究針對空間推理與行動之間的差距提出 Spatial‑Gym 測試平台，透過 2D 網格迷宮的逐步決策任務評估模型。實驗比較一次性、步驟式與回溯三種設定下八個模型與人類、隨機、A* 基線的表現。結果顯示即使是最佳模型 GPT‑OSS 120B 只解出 16%，遠低於人類的 98%，且步驟式互動對弱模型有提升，但對強模型有負面影響。