SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

智能体与自主科学突破级暂无讲解视频

收录解读

SkillEvolBench 聚焦 agent memory 的关键问题：长期经验如果只以 episodic traces 存储，agent 仍然很难把一次次失败和成功压缩成可复用技能。

benchmark 明确评估从 episodic experience 到 procedural skills 的演化过程，要求系统在跨任务和跨上下文场景中形成更抽象、可迁移的操作程序。

这使评测对象从“是否记得过去”变成“是否把过去转化为未来能力”，直接对应 skill library、agent memory 和 self-evolving agents 的交汇点。

它值得正式收录，因为它提供了 agent 能力增长的评测接口，比普通记忆检索或单任务成功率更接近长期智能体的核心目标。