SWE-TRACE: Optimizing Long-Horizon SWE Agents Through Rubric Process Reward Models and Heuristic Test-Time Scaling

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-16
arXiv: 2604.14820

收录解读

问题与背景：真实 SWE agents 容易被低质量 demonstration、稀疏执行奖励和昂贵推理扩展拖累，形成 token bloat、reward hacking 和策略退化。

方法与新意：SWE-TRACE 把数据、RL 和推理合成一个 lifecycle：用 stepwise oracle verification 蒸馏 token-efficient SFT 轨迹，用 Rubric-Agent 提供过程奖励，并在推理时复用 PRM 做 heuristic-guided TTS。

收录意义：这篇适合 coding-agent 主线，因为它把 SWE agent 优化从单点 prompt/benchmark 推向数据策展、过程奖励和 test-time scaling 的闭环。

局限：系统复杂度高，收益可能依赖 rubric 质量和 benchmark 设置；与既有 SWE-agent 生态的独立复现仍需观察。

链接

论文链接