AIRA_2: Overcoming Bottlenecks in AI Research Agents

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-27
arXiv: 2603.26499

收录解读

这篇论文聚焦 research-agent 这一条已经开始拥挤但仍缺少结构性解释的主线。作者不是简单把更强模型堆到 MLE-bench 上，而是先明确指出 AI research agents 存在三个持续限制性能的瓶颈：单 GPU 同步执行导致 search 吞吐受限，validation-based selection 带来表面上的 extended-search generalization gap，以及固定单轮 operator 本身限制了搜索与调试能力。

AIRA_2 的贡献在于把这三个瓶颈分别转成可复用的系统设计。论文提出异步多 GPU worker pool 以提升实验吞吐，提出 Hidden Consistent Evaluation 以减少 noisy validation selection 带来的误判，并用可动态缩放动作范围的 ReAct agents 取代固定单轮 operator。结果不只是拿到更高的 MLE-bench-30 percentile rank，更重要的是通过 ablation 说明先前所谓 overfitting 很大一部分来自评测噪声而不是真实的数据记忆。

这使它对仓库里的 agent systems / research workflow 方向有持续价值。它同时提供了 research-agent runtime 设计模式、evaluation protocol 改进和 bottleneck taxonomy，不只是一次 benchmark 刷分。对于后续做 autonomous research、tool-use search、multi-run selection 的系统，AIRA_2 给出的是一套更稳定的工程蓝图。

它的主要证据仍集中在 MLE-bench-30 及相邻 research-agent 场景，泛化到更广 scientific workflow 或 enterprise agent 环境的证据还不够充分。因此这篇论文在仓库中适合定为 breakthrough，而不是更高一级。

解读视频

B 站 YouTube

链接

论文链接