智能体与自主科学
突破级
暂无讲解视频
收录解读
TRACE 关注 agent 训练中的一个核心低效:失败并不直接告诉我们缺什么能力,而普通 synthetic data 也不一定针对目标环境的真实缺口。论文把 recurrent failures 转换为 capability-targeted training environments。
系统对比成功与失败轨迹,自动识别缺失能力,再合成针对该能力的训练环境,并奖励模型是否学会相应动作模式。它把“agent 自我改进”拆成缺陷定位、环境生成和定向训练三步。
它值得收录,是因为它给 self-improving agents 提供了能力级闭环,而不是简单微调失败样本。这个范式对网页 agent、工具 agent、代码 agent 和具身 agent 的 targeted curriculum 都有复用价值。
局限在于能力识别和合成环境质量决定上限;复杂开放任务中的 capability 分解可能仍会漂移或过拟合。