智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-25
arXiv
2603.24755

收录解读

现有 coding agent benchmark 大多看单次提交能否过测试,但真实软件开发是不断迭代扩展的。代码可能今天能过测试,明天就因为结构变形、冗余堆积而难以继续维护,因此 pass rate 对 agent 的长期开发能力测量严重不足。

SlopCodeBench 针对这一缺口,设计了 20 个问题、93 个 checkpoint 的长程迭代 benchmark,让 agent 在不断变化的需求下持续修改自己先前写出的代码。作者显式跟踪 verbosity 和 structural erosion 两个轨迹级指标,并把 agent 代码与开源人类仓库做对照,展示当前 coding agent 会随迭代明显退化。

这篇工作值得收录,因为它不是又一个 coding leaderboard,而是把“长期代码退化”抽成了一个可复用评测对象。只要还在讨论代码代理、自然语言 harness、自治软件工程,这个 benchmark 都有明显的方法外溢和诊断价值。

它没有更高一级,是因为它主要解决的是评测和诊断,不是新的训练范式或系统接口;而且 benchmark 规模还不算特别大,是否会成为默认标准还要看后续采用。

链接