UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench

智能体与自主科学突破级暂无讲解视频

收录解读

这篇 ACL 2025 论文聚焦 SWE-Bench 上 coding agent 的严格评估问题。随着自动修复分数被大量引用，如何确认 agent 真正修好仓库而不是利用评测漏洞，已经成为软件 agent 方向的基础问题。

UTBoost 的价值在于强化 unit-test 和评估严谨性，逼近真实 CI-loop 语境中的软件修复质量。这属于 coding agent evaluation 的基础设施，而不是又一个刷分 agent。

按本库标准，它值得收录，因为它提供了可复用的软件工程 agent 评测校准思路，能帮助识别 benchmark gaming、脆弱测试和虚假成功。

局限是 SWE-Bench 仍是有限 benchmark，真实仓库维护还涉及需求澄清、长期上下文、代码审查和部署风险。