Structured Distillation of Web Agent Capabilities Enables Generalization

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-09
arXiv: 2604.07776

收录解读

这篇论文瞄准 web agent 的部署落差：前沿闭源模型可以操作复杂网站，但成本、隐私和第三方 API 依赖让本地部署困难；小型开源模型又缺少足够的 web interaction 能力。问题不只是生成更多轨迹，而是如何把 web agent 的任务设计、执行和监督过程结构化为可复用的蒸馏流水线。

作者提出 Agent-as-Annotators，把人类创建 WebArena 任务时的 Task Designer、Annotator、Supervisor 三个角色替换为模块化 LLM 组件：persona/task generator 设计任务和 evaluation hints，teacher agent 执行轨迹，judge 过滤成功样本。用 Gemini 3 Pro 生成并过滤 2322 条成功轨迹后，对 9B student 做纯 SFT。

这篇值得收录，因为它把 web agent 能力蒸馏从经验性合成数据扩展成清晰角色分工的 annotation framework，并给出很强的跨环境证据：9B 学生在 WebArena 达到 41.5%，超过同协议下 GPT-4o 和 Claude 3.5 Sonnet，并在未见过的 WorkArena 等环境获得明显迁移提升。它对本地化 agent、隐私友好 web automation 和合成轨迹生成都有直接参考价值。

它不是更高一级，因为当前仍高度依赖单个 frontier teacher、WebArena 风格环境和自动 judge 过滤；是否能泛化到长尾真实网站、登录态任务、抗干扰 UI 和安全约束下，还需要更多独立验证。

链接

论文链接