智能体与自主科学
突破级
暂无讲解视频
收录解读
问题与背景:真实 SWE agents 容易被低质量 demonstration、稀疏执行奖励和昂贵推理扩展拖累,形成 token bloat、reward hacking 和策略退化。
方法与新意:SWE-TRACE 把数据、RL 和推理合成一个 lifecycle:用 stepwise oracle verification 蒸馏 token-efficient SFT 轨迹,用 Rubric-Agent 提供过程奖励,并在推理时复用 PRM 做 heuristic-guided TTS。
收录意义:这篇适合 coding-agent 主线,因为它把 SWE agent 优化从单点 prompt/benchmark 推向数据策展、过程奖励和 test-time scaling 的闭环。
局限:系统复杂度高,收益可能依赖 rubric 质量和 benchmark 设置;与既有 SWE-agent 生态的独立复现仍需观察。