智能体与自主科学
突破级
暂无讲解视频
收录解读
SkillEvolBench 聚焦 agent memory 的关键问题:长期经验如果只以 episodic traces 存储,agent 仍然很难把一次次失败和成功压缩成可复用技能。
benchmark 明确评估从 episodic experience 到 procedural skills 的演化过程,要求系统在跨任务和跨上下文场景中形成更抽象、可迁移的操作程序。
这使评测对象从“是否记得过去”变成“是否把过去转化为未来能力”,直接对应 skill library、agent memory 和 self-evolving agents 的交汇点。
它值得正式收录,因为它提供了 agent 能力增长的评测接口,比普通记忆检索或单任务成功率更接近长期智能体的核心目标。