智能体与自主科学 突破级 有讲解视频
发表时间
2026-05-25
arXiv
2605.26086

收录解读

Claw-Anything 扩展了 personal assistant agent 的评测边界:真实助理需要访问用户长期数字世界,而现有 benchmark 往往只给出局部网页、局部软件或短期任务状态。

它沿三个维度扩大上下文:long-horizon activity histories、interdependent backend services、以及跨设备的 GUI/CLI integrated interaction。

通过 multi-round event injection 模拟数月用户活动,生成含噪声、冲突信号和复杂 world states 的环境,并评估 proactive assistance 和上下文敏感推理。

它值得正式收录,因为它把 agent benchmark 从单任务执行推进到 always-on personal assistant 的长期用户状态和跨服务世界模型,对个人 agent 训练与评测很关键。

解读视频

链接