天气、气候与地球系统
突破级
暂无讲解视频
收录解读
GeoFMs 发展很快,但评测长期缺少统一协议,结果通常停留在单数据集分数对比,难以回答模型究竟具备哪些稳定能力。对下游用户来说,这比单次 leaderboard 排名更关键。
GEO-Bench-2 提供了覆盖分类、分割、回归、检测和实例分割的 19 个许可友好数据集,并引入 capability groups,把共享分辨率、波段、时序等特征的数据集归到同一能力维度。论文同时给出 prescriptive yet flexible 的评测协议,使公平比较与 adaptation 研究可以在同一基线上展开。
这篇工作值得收录,因为它不是又一个 geospatial benchmark 拼盘,而是在重写 geospatial AI 的评价语言:从单任务 performance 转向 capability-oriented evaluation。对地理空间基础模型、遥感多模态模型和场景化下游部署,这都是更耐久的参考框架。
它仍然主要服务于 geospatial AI 这一垂直方向,尚未达到会重塑更广多模态或 foundation-model 评测范式的程度。因此我把它定为 breakthrough,而不是更高。