Toward Scalable Terminal Task Synthesis via Skill Graphs

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-28
arXiv: 2604.25727

收录解读

这篇工作的价值不只是再造一个 terminal benchmark，而是把 terminal-agent training data generation 做成了一个可控的 workflow synthesis 问题。核心不是多造任务，而是通过 scenario-mediated skill graph 先定义 skills 之间的可组合路径，再从图里采样 minimal execution trajectories。

这解决了以往终端任务合成里一个很实际的缺口：大家会扩大量，却很难显式控制 agent 真正经历的轨迹多样性。SkillSynth 通过 graph-sampled workflows + multi-agent harness，把任务实例生成和 skill coverage 联系起来，这对 terminal agents、computer-use agents、甚至 broader tool-using agents 都有外溢。

它值得正式收录，因为这不是一个局部 benchmark trick，而是一个训练数据引擎接口。后续凡是需要从技能单元组合成长程可执行任务的 agent 训练，都能借这套 skill-graph synthesis 思路。

它没有更高，是因为当前主验证仍集中在 terminal setting，虽然已经显示出对 Hy3 Preview 的训练价值，但跨更广 action domains 的普适性还没完全建立。

链接

论文链接