智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-07
arXiv
2604.05336

收录解读

TRACE 关注 agent 训练中的一个核心低效:失败并不直接告诉我们缺什么能力,而普通 synthetic data 也不一定针对目标环境的真实缺口。论文把 recurrent failures 转换为 capability-targeted training environments。

系统对比成功与失败轨迹,自动识别缺失能力,再合成针对该能力的训练环境,并奖励模型是否学会相应动作模式。它把“agent 自我改进”拆成缺陷定位、环境生成和定向训练三步。

它值得收录,是因为它给 self-improving agents 提供了能力级闭环,而不是简单微调失败样本。这个范式对网页 agent、工具 agent、代码 agent 和具身 agent 的 targeted curriculum 都有复用价值。

局限在于能力识别和合成环境质量决定上限;复杂开放任务中的 capability 分解可能仍会漂移或过拟合。

链接