智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-01
arXiv
2604.00824

收录解读

agentic 和 coding LLM 的后训练越来越依赖大规模 task-specific trajectories,但构造、筛选和回放这些轨迹成本极高。很多工作默认更多轨迹就更好,而这篇论文延续了 less-is-more 的判断,直接追问:对于 agentic data,真正重要的是数量,还是高价值决策片段的密度。

论文提出 STITCH(Sliding-memory Trajectory Inference and Task Chunking Heuristic),用 coarse-to-fine 的方式切掉低价值噪声、保留 decision-critical tokens,并把这套筛选框架应用到 reasoning、coding 和 software engineering agent training 上。实验覆盖不同 agent scaffold、不同模型规模以及 Python、Java、ArkTS 等多语言环境,结果显示在远少于传统大数据量的轨迹条件下依然能显著提升 SWE-bench Verified 和多语言 agent 任务表现。

这篇工作值得收录,因为它把 agent post-training 的关键问题从“如何再收集更多轨迹”改成“如何提高轨迹训练信号密度”。这对 agent data pipeline、trajectory compression、cost-aware post-training 和 multilingual agent adaptation 都有直接方法价值,而不只是一个 task-specific trick。

它没有升到更高一级,是因为当前方法仍以 heuristic curation 与 chunking 为主,虽然效果强,但还没有上升为更完整的 agent learning 理论或标准化训练接口。它是一条很实用的后训练路线推进,但还不够重定义整个 agent training 框架。

链接