SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-04
arXiv: 2603.03823

收录解读

现有软件工程 agent benchmark 大多停留在静态 bug fixing 或一次性 patch correctness 上，但真实软件开发更接近持续演化过程：需求不断变化，功能在几十轮提交与回归中被维护、修改和延展。只看单次修复是否通过，无法衡量 agent 是否真的具备维护代码库的能力。

SWE-CI 把 Continuous Integration loop 引入 agent evaluation，提出第一个 repository-level benchmark，明确把评估目标从短期 functional correctness 转向动态、长期 maintainability。任务来自真实仓库演化历史，每个任务跨越长时间开发轨迹和多轮连续提交，要求 agent 在几十轮分析与编码迭代中持续修正并维持代码质量，而不是只交一份最终 patch。

这篇工作值得收录，因为它补上了 coding-agent 评测里最关键的缺口之一：长期维护能力。它不是再造一个 static repair benchmark，而是把 CI 过程本身变成可复现评估接口，对 repository-scale coding agents、长期 feature iteration 和 maintainability-oriented evaluation 都有耐久参考价值。

它没有升到更高一级，是因为当前仍主要是一条 benchmark/evaluation 路线，而不是新的 agent training or runtime 范式。它的重要性在于评估目标的升级，但是否会成为整个 coding-agent 社区的默认基准，还需要更多采用信号。

链接

论文链接