Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-23
arXiv: 2603.22529

收录解读

问题与背景：当前 web-agent benchmark 基本都把智能体限制在浏览器内部，默认视觉输入也只来自网页本身，因此无法评估一类更真实的助理任务：智能体先通过第一人称视觉理解用户身边的物体、场景或上下文，再去网页上完成检索、购买、预约或信息填写。Ego2Web 要解决的正是这个物理世界到网页执行之间的断层。

方法/新意：论文提出 Ego2Web，把真实的 egocentric video 与需要网页执行的任务配对，覆盖电商、媒体检索、知识查询等多类场景。数据构建上采用自动生成加人工校验的流程，避免纯人工写题的低扩展性；评估上提出 Ego2WebJudge，用 LLM-as-a-Judge 对任务完成情况做自动判定，并报告出明显高于既有方法的人类一致性。

意义/放在仓库中的位置：这篇工作适合放在 agent / computer-use / embodied assistant 主线。它的重要性不只是又一个网页 benchmark，而是把 web execution 和第一人称现实感知绑到同一条任务链上，为未来 AR glasses agent、跨物理-数字环境助理以及更真实的 GUI/Web/VLA 融合评测提供了一个明确接口。对 agent evaluation 的长期外溢性很强。

局限/为何不再升一级：它当前仍是 benchmark 和 evaluation 资源，而不是直接改写 agent 架构本身的方法论文。任务规模、视频类型和网页环境也还可以继续扩展，因此更稳妥的定位是突破性，而不是更高一级的范式重排。

链接

论文链接