MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-09
arXiv: 2604.08516

收录解读

这篇论文处理的是 web agent 研究中的开放性缺口：强 web agent 多依赖闭源模型、不可见训练数据和不透明 recipes，导致社区很难复现、分析和改进。对于会在开放网页上行动的 agent，仅有性能分数不够，训练数据、动作接口和评测 harness 的开放性本身就是研究基础设施。

MolmoWeb 的核心贡献是同时发布数据混合物和模型路线。MolmoWebMix 组合 10 万级 synthetic browser trajectories、3 万多 human demonstrations、atomic web-skill trajectories 和 GUI perception 数据；MolmoWeb 则把 web agent 设计成基于截图的 instruction-conditioned visual-language action policy，不依赖 HTML、accessibility tree 或专用 API。

它值得正式收录，因为这不是单个 benchmark 上的模型刷分，而是给开放视觉 web agent 提供了数据、模型、动作空间和评测 harness 的完整基础。4B/8B 模型在 WebVoyager、Online-Mind2Web、DeepShop 等 benchmark 上超越同规模 open-weight baselines，并展示了 parallel rollout + best-of-N 的测试时扩展收益，对 open web automation、GUI grounding 和 agent 评测都有长期参考价值。

它不是更高一级，因为论文仍主要采用 SFT 和已有 benchmark 体系，真实开放网页的稳定性、安全性、登录态、反爬和长期任务表现还未充分证明；模型 release 的社区使用情况也需要时间检验。

链接

论文链接