SkillFlow: Benchmarking Lifelong Skill Discovery and Evolution in Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-21
arXiv: 2604.17308

收录解读

这篇论文瞄准的是 agent systems 一个非常核心但此前 benchmark 覆盖不足的问题：智能体不是只要会调用已有技能，还应当能从经验中发现技能、失败后修补技能，并长期维护一个可演化的技能库。它把问题从静态 tool-use 测试推进到 lifelong skill evolution。

SkillFlow 构建了 166 个任务、20 个任务族，并通过 Domain-Agnostic Execution Flow 让任务共享稳定工作流结构。评测协议要求 agent 从无技能起步，顺序完成任务、把经验外化成 skill patch，并把更新后的技能库带到后续任务中，真正测试发现、修复、迁移和维护。

它值得正式收录，因为它提供的是 durable benchmark interface，而不是又一个单次任务成功率榜单。对于 agent memory、capability acquisition、skill marketplace、self-improving agents 和长期评估都很有参考价值，也正好对齐本仓库在 agent capability extension 上的重点。

它没有升到 disruptive，是因为目前主要贡献还是评测框架和实验揭示的能力缺口，而不是一个新的 agent operating system。本质上它是强 benchmark / evaluation primitive，需要后续大量系统接入后才能体现更大的方向影响。

链接

论文链接