Plan-and-React - Agents Report

深度分析

GeoAgentBench：工具增強型代理人在空間分析的動態執行基準與參數精度評估

GeoAgentBench（GABench）針對 GIS 工具增強型 LLM 代理人提供動態執行基準，整合 117 項原子工具與 53 種空間任務，並以參數執行準確度（PEA）量化隱式參數推斷。結合視覺語言模型驗證空間與製圖正確性，並透過 Plan‑and‑React 架構提升多步推理與錯誤復原，實驗證明其在七款大型語言模型上表現領先。