深度分析 SpatialBench-Long:評估AI代理人於空間生物學長程推理與程序性量測的限制 本研究以實際空間生物量測為起點建立24項長程評估任務探討AI代理人對科學結論的重建能力任務涵蓋空間轉錄組織形態與血緣追蹤等多模態資料採用可驗證二元評分並結合軌跡式阻塞點診斷在15組模型與介面共1080條路徑中結果顯示通過率低但出現零星成功揭示程序性量測與跨模態整合的侷限