GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

天气、气候与地球系统突破级暂无讲解视频

发表时间: 2026-03-10
arXiv: 2603.09551

收录解读

遥感 VLM 已经能处理越来越多感知任务，但一旦进入 step-by-step reasoning，问题就变成：中间推理过程到底有没有持续对齐视觉证据。远程感知场景里，这种 visual faithfulness 的缺失会比普通 VQA 更严重，因为几何、尺度和局部纹理都更容易误导中间步骤。

GeoSolver 的核心是把 remote-sensing reasoning 推向可验证的 process-supervised RL。论文先构造 Geo-PRM-2M 这一大规模 token-level process supervision 数据集，再训练 GeoPRM 作为细粒度 process reward model，用它去支撑 Process-Aware Tree-GRPO 的 credit assignment，并把 verifier 进一步用于 test-time scaling。结果不只提升一个自家模型，也能直接增强 general-purpose VLM。

它值得正式收录，因为真正可复用的部分不是某个遥感 benchmark 分数，而是‘domain-specific verifier + process supervision + tree-structured RL/TTS’ 这一整套 reasoning workflow。对 geospatial AI 来说这是强方法，对更广的 verifiable multimodal reasoning 也有清晰外溢。

它没有升到更高一级，是因为当前主要证据仍集中在 remote sensing 这一特定高价值场景，跨领域 generalization 还需要更多验证。现阶段更像一条在地理空间推理里非常强的 method stack，而不是全局通用默认方案。

链接

论文链接