TRACE: Capability-Targeted Agentic Training

智能体与自主科学突破级暂无讲解视频

收录解读

TRACE 关注 agent 训练中的一个核心低效：失败并不直接告诉我们缺什么能力，而普通 synthetic data 也不一定针对目标环境的真实缺口。论文把 recurrent failures 转换为 capability-targeted training environments。

系统对比成功与失败轨迹，自动识别缺失能力，再合成针对该能力的训练环境，并奖励模型是否学会相应动作模式。它把“agent 自我改进”拆成缺陷定位、环境生成和定向训练三步。

它值得收录，是因为它给 self-improving agents 提供了能力级闭环，而不是简单微调失败样本。这个范式对网页 agent、工具 agent、代码 agent 和具身 agent 的 targeted curriculum 都有复用价值。

局限在于能力识别和合成环境质量决定上限；复杂开放任务中的 capability 分解可能仍会漂移或过拟合。