智能体与自主科学
突破级
暂无讲解视频
收录解读
现有 coding agent benchmark 大多看单次提交能否过测试,但真实软件开发是不断迭代扩展的。代码可能今天能过测试,明天就因为结构变形、冗余堆积而难以继续维护,因此 pass rate 对 agent 的长期开发能力测量严重不足。
SlopCodeBench 针对这一缺口,设计了 20 个问题、93 个 checkpoint 的长程迭代 benchmark,让 agent 在不断变化的需求下持续修改自己先前写出的代码。作者显式跟踪 verbosity 和 structural erosion 两个轨迹级指标,并把 agent 代码与开源人类仓库做对照,展示当前 coding agent 会随迭代明显退化。
这篇工作值得收录,因为它不是又一个 coding leaderboard,而是把“长期代码退化”抽成了一个可复用评测对象。只要还在讨论代码代理、自然语言 harness、自治软件工程,这个 benchmark 都有明显的方法外溢和诊断价值。
它没有更高一级,是因为它主要解决的是评测和诊断,不是新的训练范式或系统接口;而且 benchmark 规模还不算特别大,是否会成为默认标准还要看后续采用。