智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇工作的价值不只是再造一个 terminal benchmark,而是把 terminal-agent training data generation 做成了一个可控的 workflow synthesis 问题。核心不是多造任务,而是通过 scenario-mediated skill graph 先定义 skills 之间的可组合路径,再从图里采样 minimal execution trajectories。
这解决了以往终端任务合成里一个很实际的缺口:大家会扩大量,却很难显式控制 agent 真正经历的轨迹多样性。SkillSynth 通过 graph-sampled workflows + multi-agent harness,把任务实例生成和 skill coverage 联系起来,这对 terminal agents、computer-use agents、甚至 broader tool-using agents 都有外溢。
它值得正式收录,因为这不是一个局部 benchmark trick,而是一个训练数据引擎接口。后续凡是需要从技能单元组合成长程可执行任务的 agent 训练,都能借这套 skill-graph synthesis 思路。
它没有更高,是因为当前主验证仍集中在 terminal setting,虽然已经显示出对 Hy3 Preview 的训练价值,但跨更广 action domains 的普适性还没完全建立。