科学发现旗舰工作 突破级 暂无讲解视频
发表时间
2026-04-28
arXiv
2604.25256

收录解读

这篇工作的意义在于把 scientific agent 里一个常被低估的核心步骤单独拉出来测:不是让 agent 回答一个科学问题,而是让它先把真正相关、满足约束的文献找全、找准、找到证据链。

AutoResearchBench 的设计点也比较清楚。它区分了需要逐步追踪目标文献的 Deep Research 和需要系统收集满足条件文献集合的 Wide Research,这比普通 web-browsing benchmark 更贴近真实科研过程,因为 qualified papers 的数量和证据路径往往是未知的。

它值得正式收录,因为 literature discovery 本身就是科学代理的基础能力层,而这篇工作给出了一个更研究导向、更 open-ended 的 benchmark interface。对 deep research agent、scientific RAG、evidence verification 都有直接复用价值。

它没有更高,是因为当前仍是 benchmark-first 的贡献;它更像一个关键评测接口,而不是已经改变 scientific agent operating layer 的完整系统。

链接