智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-16
arXiv
2604.14820

收录解读

问题与背景:真实 SWE agents 容易被低质量 demonstration、稀疏执行奖励和昂贵推理扩展拖累,形成 token bloat、reward hacking 和策略退化。

方法与新意:SWE-TRACE 把数据、RL 和推理合成一个 lifecycle:用 stepwise oracle verification 蒸馏 token-efficient SFT 轨迹,用 Rubric-Agent 提供过程奖励,并在推理时复用 PRM 做 heuristic-guided TTS。

收录意义:这篇适合 coding-agent 主线,因为它把 SWE agent 优化从单点 prompt/benchmark 推向数据策展、过程奖励和 test-time scaling 的闭环。

局限:系统复杂度高,收益可能依赖 rubric 质量和 benchmark 设置;与既有 SWE-agent 生态的独立复现仍需观察。

链接