HippoCamp: Benchmarking Contextual Agents on Personal Computers

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.01221

收录解读

当前 agent benchmark 大多围绕网页操作、工具调用或通用软件自动化展开，但真实个人电脑环境中的 agent 还要处理完全不同的问题：理解用户背景、在海量个人文件中跨模态检索证据、并据此完成上下文化推理。HippoCamp 针对的正是这类更接近真实个人计算场景的 contextual agent 能力。

论文构建了一个 device-scale benchmark，用真实用户档案和超过 2K 个真实文件搭建个人文件系统环境，总数据量达 42.4GB，并进一步标注 581 个 QA 任务以及 46.1K 条结构化执行轨迹。评测不只看最终答对率，还细分到 search、evidence perception 和 multi-step reasoning 等子能力，因此更适合做 agent failure diagnosis 与方法对比。

这篇工作值得收录，因为它把 agent evaluation 从公开网页和通用工具，推进到更贴近个人操作系统与私有文件空间的场景。这个方向和仓库近期关注的 memory、context engineering、contextual assistants 很一致，而且 dense trajectory 标注让它具备了比一般 benchmark 更高的分析与复用价值。

它没有升到更高一级，是因为当前仍是一条新 benchmark 线，长期耐久性要看外部团队是否会广泛采用，以及是否会成为 contextual agents / PC agents 的默认评测基座。现在它显然已超过普通 benchmark，但离更高层级的路线改写还差 adoption 证明。

链接

论文链接