深度分析 Spatial‑Gym:驗證大型語言模型在 2D 網格空間推理與行動的效能差距 研究針對空間推理與行動之間的差距提出 Spatial‑Gym 測試平台,透過 2D 網格迷宮的逐步決策任務評估模型。實驗比較一次性、步驟式與回溯三種設定下八個模型與人類、隨機、A* 基線的表現。結果顯示即使是最佳模型 GPT‑OSS 120B 只解出 16%,遠低於人類的 98%,且步驟式互動對弱模型有提升,但對強模型有負面影響。