智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文瞄准的是 agent systems 一个非常核心但此前 benchmark 覆盖不足的问题:智能体不是只要会调用已有技能,还应当能从经验中发现技能、失败后修补技能,并长期维护一个可演化的技能库。它把问题从静态 tool-use 测试推进到 lifelong skill evolution。
SkillFlow 构建了 166 个任务、20 个任务族,并通过 Domain-Agnostic Execution Flow 让任务共享稳定工作流结构。评测协议要求 agent 从无技能起步,顺序完成任务、把经验外化成 skill patch,并把更新后的技能库带到后续任务中,真正测试发现、修复、迁移和维护。
它值得正式收录,因为它提供的是 durable benchmark interface,而不是又一个单次任务成功率榜单。对于 agent memory、capability acquisition、skill marketplace、self-improving agents 和长期评估都很有参考价值,也正好对齐本仓库在 agent capability extension 上的重点。
它没有升到 disruptive,是因为目前主要贡献还是评测框架和实验揭示的能力缺口,而不是一个新的 agent operating system。本质上它是强 benchmark / evaluation primitive,需要后续大量系统接入后才能体现更大的方向影响。