Yet Even Less Is Even Better For Agentic, Reasoning, and Coding LLMs

CodeArts Model Team; Yang Ye; Jingyuan Tan; Tianyue Jiang; Ruizhe Ye; Qiankun He; Jiarui Yang; Jian Dong; Sicong Liang; Chongjian Yue; Peibai Xu; Lufan Lu; Shiguan Pang; Taotao Qian; Junbao Hu; Yuechan Hao; Ensheng Shi; Qi Zhang; Yi Hao; Na Fan; Xin Tan; Shuai Yao; Zhiwei Shen; Zongchen Li; Yanlin Wang; Chong Chen; Yuchi Ma

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00824

收录解读

agentic 和 coding LLM 的后训练越来越依赖大规模 task-specific trajectories，但构造、筛选和回放这些轨迹成本极高。很多工作默认更多轨迹就更好，而这篇论文延续了 less-is-more 的判断，直接追问：对于 agentic data，真正重要的是数量，还是高价值决策片段的密度。

论文提出 STITCH（Sliding-memory Trajectory Inference and Task Chunking Heuristic），用 coarse-to-fine 的方式切掉低价值噪声、保留 decision-critical tokens，并把这套筛选框架应用到 reasoning、coding 和 software engineering agent training 上。实验覆盖不同 agent scaffold、不同模型规模以及 Python、Java、ArkTS 等多语言环境，结果显示在远少于传统大数据量的轨迹条件下依然能显著提升 SWE-bench Verified 和多语言 agent 任务表现。

这篇工作值得收录，因为它把 agent post-training 的关键问题从“如何再收集更多轨迹”改成“如何提高轨迹训练信号密度”。这对 agent data pipeline、trajectory compression、cost-aware post-training 和 multilingual agent adaptation 都有直接方法价值，而不只是一个 task-specific trick。

它没有升到更高一级，是因为当前方法仍以 heuristic curation 与 chunking 为主，虽然效果强，但还没有上升为更完整的 agent learning 理论或标准化训练接口。它是一条很实用的后训练路线推进，但还不够重定义整个 agent training 框架。

原始摘要与中文对照

中文对照翻译

训练有效的软件工程代理需要大量的任务特定轨迹，这会产生巨大的数据构建成本。受数学推理中“少即是多”假设的启发，我们研究了其在代理场景中的扩展，并提出了一个端到端训练框架，该框架通过更少但更高质量的训练轨迹实现了卓越的代理能力。这通过STITCH（滑动记忆轨迹推理和任务分块启发式算法）实现，这是一种从粗到精的机制，用于过滤低价值噪声并保留决策关键令牌，以最大化训练信号质量。我们在多个代理框架（例如mini-SWE-agent、MSWEagent）、模型规模（30B到355B）和多语言设置（Python、Java和ArkTS）中进行了实验。在SWE-bench Verified上，使用STITCH训练的模型比基础模型实现了高达63.16%的相对改进。在MultiSWE-bench (Java)上，MiniMax-M2.5-STITCH使用我们的CodeArts Agent脚手架实现了43.75%（+16.67%）。在HarmonyOS (ArkTS)上，GLM-4.7-STITCH在不到1K的训练轨迹下将编译通过率提高到61.31%（+43.34%）。我们的结果证实，“少即是多”范式有效地推广到跨不同语言和模型规模的复杂代理任务。

原始摘要

Training effective software engineering agents requires large volumes of task-specific trajectories, incurring substantial data construction costs. Inspired by the "Less-Is-More" hypothesis in mathematical reasoning, we investigate its extension to agentic scenarios and propose an end-to-end training framework that achieves superior agentic capabilities with fewer but higher-quality training trajectories. This is achieved via STITCH (Sliding-memory Trajectory Inference and Task Chunking Heuristic), a coarse-to-fine mechanism that filters low-value noise and retains decision-critical tokens to maximize training signal quality. We conduct experiments across multiple agent frameworks(e.g., mini-SWE-agent, MSWEagent), model scales (30B to 355B), and multilingual settings (Python, Java, and ArkTS). On SWE-bench Verified, models trained with STITCH achieve up to 63.16% relative improvement over base models. On MultiSWE-bench (Java), MiniMax-M2.5-STITCH achieves 43.75% with our CodeArts Agent scaffold (+16.67%). On HarmonyOS (ArkTS), GLM-4.7-STITCH improves the compilation pass rate to 61.31% (+43.34%) with less than 1K training trajectories. Our results confirm that the "Less-Is-More" paradigm generalizes effectively to complex agentic tasks across diverse languages and model scales.

链接

论文链接