智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-04
arXiv
2603.03823

收录解读

现有软件工程 agent benchmark 大多停留在静态 bug fixing 或一次性 patch correctness 上,但真实软件开发更接近持续演化过程:需求不断变化,功能在几十轮提交与回归中被维护、修改和延展。只看单次修复是否通过,无法衡量 agent 是否真的具备维护代码库的能力。

SWE-CI 把 Continuous Integration loop 引入 agent evaluation,提出第一个 repository-level benchmark,明确把评估目标从短期 functional correctness 转向动态、长期 maintainability。任务来自真实仓库演化历史,每个任务跨越长时间开发轨迹和多轮连续提交,要求 agent 在几十轮分析与编码迭代中持续修正并维持代码质量,而不是只交一份最终 patch。

这篇工作值得收录,因为它补上了 coding-agent 评测里最关键的缺口之一:长期维护能力。它不是再造一个 static repair benchmark,而是把 CI 过程本身变成可复现评估接口,对 repository-scale coding agents、长期 feature iteration 和 maintainability-oriented evaluation 都有耐久参考价值。

它没有升到更高一级,是因为当前仍主要是一条 benchmark/evaluation 路线,而不是新的 agent training or runtime 范式。它的重要性在于评估目标的升级,但是否会成为整个 coding-agent 社区的默认基准,还需要更多采用信号。

链接