智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-09
arXiv
2604.07776

收录解读

这篇论文瞄准 web agent 的部署落差:前沿闭源模型可以操作复杂网站,但成本、隐私和第三方 API 依赖让本地部署困难;小型开源模型又缺少足够的 web interaction 能力。问题不只是生成更多轨迹,而是如何把 web agent 的任务设计、执行和监督过程结构化为可复用的蒸馏流水线。

作者提出 Agent-as-Annotators,把人类创建 WebArena 任务时的 Task Designer、Annotator、Supervisor 三个角色替换为模块化 LLM 组件:persona/task generator 设计任务和 evaluation hints,teacher agent 执行轨迹,judge 过滤成功样本。用 Gemini 3 Pro 生成并过滤 2322 条成功轨迹后,对 9B student 做纯 SFT。

这篇值得收录,因为它把 web agent 能力蒸馏从经验性合成数据扩展成清晰角色分工的 annotation framework,并给出很强的跨环境证据:9B 学生在 WebArena 达到 41.5%,超过同协议下 GPT-4o 和 Claude 3.5 Sonnet,并在未见过的 WorkArena 等环境获得明显迁移提升。它对本地化 agent、隐私友好 web automation 和合成轨迹生成都有直接参考价值。

它不是更高一级,因为当前仍高度依赖单个 frontier teacher、WebArena 风格环境和自动 judge 过滤;是否能泛化到长尾真实网站、登录态任务、抗干扰 UI 和安全约束下,还需要更多独立验证。

链接