智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-26
arXiv
2605.27141

核心要点

问题/背景
这篇论文补齐现有 agent benchmark 的盲区:多数 benchmark 测 reasoning/tool use,但很少测长期用户交互中的个性化建模和主动补全信息。
方法/机制
VitaBench 2.0 把任务组织成个人用户的时间序列,偏好分散在碎片化互动中,agent 必须持续抽取、更新和使用这些偏好。
结果/证据
它还评估 proactiveness:agent 需要识别缺失信息,并主动向用户或环境获取,而不是盲目执行。
收录价值
收录价值在于它为 personalized/proactive agents 提供了长期交互评估接口,并带有可控 memory interface,适合比较不同记忆架构。
完整收录解读

这篇论文补齐现有 agent benchmark 的盲区:多数 benchmark 测 reasoning/tool use,但很少测长期用户交互中的个性化建模和主动补全信息。

VitaBench 2.0 把任务组织成个人用户的时间序列,偏好分散在碎片化互动中,agent 必须持续抽取、更新和使用这些偏好。

它还评估 proactiveness:agent 需要识别缺失信息,并主动向用户或环境获取,而不是盲目执行。

收录价值在于它为 personalized/proactive agents 提供了长期交互评估接口,并带有可控 memory interface,适合比较不同记忆架构。

论文摘要

VitaBench 2.0评估了在长期用户交互中,个性化和主动型代理的表现。任务被组织成个体用户的时序序列,要求代理提取、更新和利用碎片化的偏好,并通过用户或环境主动获取缺失的信息。

英文原文

VitaBench 2.0 evaluates personalized and proactive agents in long-term user interactions. Tasks are organized as temporal sequences for individual users, requiring agents to extract, update, and use fragmented preferences, and to proactively acquire missing information through users or environments.

相关论文

链接