SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-25
arXiv: 2603.24755

收录解读

现有 coding agent benchmark 大多看单次提交能否过测试，但真实软件开发是不断迭代扩展的。代码可能今天能过测试，明天就因为结构变形、冗余堆积而难以继续维护，因此 pass rate 对 agent 的长期开发能力测量严重不足。

SlopCodeBench 针对这一缺口，设计了 20 个问题、93 个 checkpoint 的长程迭代 benchmark，让 agent 在不断变化的需求下持续修改自己先前写出的代码。作者显式跟踪 verbosity 和 structural erosion 两个轨迹级指标，并把 agent 代码与开源人类仓库做对照，展示当前 coding agent 会随迭代明显退化。

这篇工作值得收录，因为它不是又一个 coding leaderboard，而是把“长期代码退化”抽成了一个可复用评测对象。只要还在讨论代码代理、自然语言 harness、自治软件工程，这个 benchmark 都有明显的方法外溢和诊断价值。

它没有更高一级，是因为它主要解决的是评测和诊断，不是新的训练范式或系统接口；而且 benchmark 规模还不算特别大，是否会成为默认标准还要看后续采用。

链接

论文链接