深度分析 GeoAgentBench:工具增強型代理人在空間分析的動態執行基準與參數精度評估 GeoAgentBench(GABench)針對 GIS 工具增強型 LLM 代理人提供動態執行基準,整合 117 項原子工具與 53 種空間任務,並以參數執行準確度(PEA)量化隱式參數推斷。結合視覺語言模型驗證空間與製圖正確性,並透過 Plan‑and‑React 架構提升多步推理與錯誤復原,實驗證明其在七款大型語言模型上表現領先。