ACC: Compiling Agent Trajectories for Long-Context Training

智能体与自主科学突破级暂无讲解视频

收录解读

ACC 把 agent 执行过程中天然产生的长轨迹转成 long-context 训练数据，核心观察是工具调用、环境反馈和中间状态本身包含大量跨轮证据，但传统 agent SFT 通常遮蔽工具响应，浪费了这些监督信号。

方法将搜索、软件工程、数据库查询等 agent 轨迹编译为 QA pairs，把原始问题、工具响应和环境观察合并成需要远距离整合的上下文，从而不依赖额外人工标注就获得长上下文推理训练样本。

在 MRCR 和 GraphWalks 等长程依赖任务上，ACC 训练 Qwen3-30B-A3B 带来显著提升，并接近更大模型表现，同时保留 GPQA、MMLU-Pro、AIME、IFEval 等一般能力。

它值得正式收录，因为它提出了一个可复用的数据生成/训练接口：把 agent execution trace 变成 long-context reasoning supervision，直接连接 agent 数据飞轮和长上下文能力训练。