GeoAgentBench: A Dynamic Execution Benchmark for Tool-Augmented Agents in Spatial Analysis

地理空间、遥感与灾害系统突破级暂无讲解视频

发表时间: 2026-04-15
arXiv: 2604.13888

收录解读

问题与背景：GIS agent 评测不能只看静态文本或代码匹配，因为真实空间分析包含参数推断、工具调用、运行时错误和地图输出质量。

方法与新意：GeoAgentBench 集成 117 个 GIS 原子工具和 53 类空间分析任务，提出 Parameter Execution Accuracy 与 VLM-based spatial/cartographic verification，并用 Plan-and-React 解耦全局规划与逐步执行修正。

收录意义：这篇符合本库对 geospatial/workflow AI 的标准，因为它提供的是可执行的空间分析 agent sandbox 和评测协议，而不是普通遥感分类。对 GIS、灾害响应、城市分析和地理工具 agent 都有复用价值。

局限：领域仍限定在 GIS 工具生态，VLM 验证与 sandbox 任务覆盖会影响泛化；真实机构工作流中的数据权限和责任链还没有被充分纳入。

链接

论文链接