智能体与自主科学 突破级 有讲解视频
发表时间
2026-03-18
arXiv
2603.17973

收录解读

AI coding agents 在真实仓库里的一个核心问题不是‘能不能修好 issue’,而是修完后会不会悄悄打断原本通过的测试。现有 benchmark 往往只看 resolution rate,很少把 regression behavior 当作一等对象来建模和控制。

TDAD 的关键贡献,是把 pre-change impact analysis 做成 coding agent 可以直接查询的轻量技能层。它先建立 source code 与 tests 的 dependency map,再在 agent 提交补丁前告诉它哪些测试必须验证,并让 agent 基于这些 targeted checks 自我修正。论文还明确比较了仅给程序性 TDD 指令和真正给 targeted test context 的差异,证明后者更有效。

它值得正式收录,因为这不是又一篇‘更强 coding agent’论文,而是给 coding-agent workflow 提供了一个 durable pre-commit control pattern。对 repository maintenance、CI-loop agent、long-horizon coding automation 都有直接复用价值,且可以作为 skill 接口接入不同模型和框架。

它没有升到更高一级,是因为当前证据仍主要集中在 SWE-bench Verified 和少量 open-weight 模型,外部生态采用还不足。现阶段更像非常强的 workflow primitive,而不是已经重构整个 coding-agent 工程栈的总蓝图。

解读视频

链接