AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

科学发现旗舰工作突破级暂无讲解视频

发表时间: 2026-04-28
arXiv: 2604.25256

收录解读

这篇工作的意义在于把 scientific agent 里一个常被低估的核心步骤单独拉出来测：不是让 agent 回答一个科学问题，而是让它先把真正相关、满足约束的文献找全、找准、找到证据链。

AutoResearchBench 的设计点也比较清楚。它区分了需要逐步追踪目标文献的 Deep Research 和需要系统收集满足条件文献集合的 Wide Research，这比普通 web-browsing benchmark 更贴近真实科研过程，因为 qualified papers 的数量和证据路径往往是未知的。

它值得正式收录，因为 literature discovery 本身就是科学代理的基础能力层，而这篇工作给出了一个更研究导向、更 open-ended 的 benchmark interface。对 deep research agent、scientific RAG、evidence verification 都有直接复用价值。

它没有更高，是因为当前仍是 benchmark-first 的贡献；它更像一个关键评测接口，而不是已经改变 scientific agent operating layer 的完整系统。

链接

论文链接