GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI

天气、气候与地球系统突破级暂无讲解视频

发表时间: 2025-11-19
arXiv: 2511.15658

收录解读

GeoFMs 发展很快，但评测长期缺少统一协议，结果通常停留在单数据集分数对比，难以回答模型究竟具备哪些稳定能力。对下游用户来说，这比单次 leaderboard 排名更关键。

GEO-Bench-2 提供了覆盖分类、分割、回归、检测和实例分割的 19 个许可友好数据集，并引入 capability groups，把共享分辨率、波段、时序等特征的数据集归到同一能力维度。论文同时给出 prescriptive yet flexible 的评测协议，使公平比较与 adaptation 研究可以在同一基线上展开。

这篇工作值得收录，因为它不是又一个 geospatial benchmark 拼盘，而是在重写 geospatial AI 的评价语言：从单任务 performance 转向 capability-oriented evaluation。对地理空间基础模型、遥感多模态模型和场景化下游部署，这都是更耐久的参考框架。

它仍然主要服务于 geospatial AI 这一垂直方向，尚未达到会重塑更广多模态或 foundation-model 评测范式的程度。因此我把它定为 breakthrough，而不是更高。

链接

论文链接