收录解读
这篇论文处理的是 web agent 研究中的开放性缺口:强 web agent 多依赖闭源模型、不可见训练数据和不透明 recipes,导致社区很难复现、分析和改进。对于会在开放网页上行动的 agent,仅有性能分数不够,训练数据、动作接口和评测 harness 的开放性本身就是研究基础设施。
MolmoWeb 的核心贡献是同时发布数据混合物和模型路线。MolmoWebMix 组合 10 万级 synthetic browser trajectories、3 万多 human demonstrations、atomic web-skill trajectories 和 GUI perception 数据;MolmoWeb 则把 web agent 设计成基于截图的 instruction-conditioned visual-language action policy,不依赖 HTML、accessibility tree 或专用 API。
它值得正式收录,因为这不是单个 benchmark 上的模型刷分,而是给开放视觉 web agent 提供了数据、模型、动作空间和评测 harness 的完整基础。4B/8B 模型在 WebVoyager、Online-Mind2Web、DeepShop 等 benchmark 上超越同规模 open-weight baselines,并展示了 parallel rollout + best-of-N 的测试时扩展收益,对 open web automation、GUI grounding 和 agent 评测都有长期参考价值。
它不是更高一级,因为论文仍主要采用 SFT 和已有 benchmark 体系,真实开放网页的稳定性、安全性、登录态、反爬和长期任务表现还未充分证明;模型 release 的社区使用情况也需要时间检验。