智能体与自主科学
突破级
暂无讲解视频
收录解读
当前 agent benchmark 大多围绕网页操作、工具调用或通用软件自动化展开,但真实个人电脑环境中的 agent 还要处理完全不同的问题:理解用户背景、在海量个人文件中跨模态检索证据、并据此完成上下文化推理。HippoCamp 针对的正是这类更接近真实个人计算场景的 contextual agent 能力。
论文构建了一个 device-scale benchmark,用真实用户档案和超过 2K 个真实文件搭建个人文件系统环境,总数据量达 42.4GB,并进一步标注 581 个 QA 任务以及 46.1K 条结构化执行轨迹。评测不只看最终答对率,还细分到 search、evidence perception 和 multi-step reasoning 等子能力,因此更适合做 agent failure diagnosis 与方法对比。
这篇工作值得收录,因为它把 agent evaluation 从公开网页和通用工具,推进到更贴近个人操作系统与私有文件空间的场景。这个方向和仓库近期关注的 memory、context engineering、contextual assistants 很一致,而且 dense trajectory 标注让它具备了比一般 benchmark 更高的分析与复用价值。
它没有升到更高一级,是因为当前仍是一条新 benchmark 线,长期耐久性要看外部团队是否会广泛采用,以及是否会成为 contextual agents / PC agents 的默认评测基座。现在它显然已超过普通 benchmark,但离更高层级的路线改写还差 adoption 证明。