智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-21
arXiv
2605.21850

收录解读

ACC 把 agent 执行过程中天然产生的长轨迹转成 long-context 训练数据,核心观察是工具调用、环境反馈和中间状态本身包含大量跨轮证据,但传统 agent SFT 通常遮蔽工具响应,浪费了这些监督信号。

方法将搜索、软件工程、数据库查询等 agent 轨迹编译为 QA pairs,把原始问题、工具响应和环境观察合并成需要远距离整合的上下文,从而不依赖额外人工标注就获得长上下文推理训练样本。

在 MRCR 和 GraphWalks 等长程依赖任务上,ACC 训练 Qwen3-30B-A3B 带来显著提升,并接近更大模型表现,同时保留 GPQA、MMLU-Pro、AIME、IFEval 等一般能力。

它值得正式收录,因为它提出了一个可复用的数据生成/训练接口:把 agent execution trace 变成 long-context reasoning supervision,直接连接 agent 数据飞轮和长上下文能力训练。

链接