收录解读
这篇论文针对的是 AI for science 里一个很硬的未闭合问题:现有系统通常只能自动化科研流程中的一个局部环节,但还做不到在单一架构下贯通课题设定、文献分析、原子级模拟、机器学习建模、机理发现和论文成稿。作者把场景收敛到 computational catalysis,直接测试 agent 是否能在一个高复杂度科学子领域里承担真正的研究流程而不是只做工具调用。
论文提出的 CatMaster 是一个 catalysis-native 多代理系统,把 project-level reasoning 和 atomistic simulations、ML modelling、literature analysis、manuscript production 接成统一执行框架。它不是把若干脚本包起来,而是在一个研究 runtime 内部把任务分解、工具执行、证据回流和阶段性产出整合起来,并在短流程任务、MatBench、反应机理自发现和单原子催化剂闭环设计上给出分层评测。
这篇值得正式收录,因为它把“科学代理”从抽象口号压到一个可判定的工作流蓝图上:什么算 end-to-end scientific execution,科研 agent 该如何接物理引擎和领域验证,以及什么样的评测才足以证明它不只是文献总结器。对仓库里的 AI for science agents 主线,它补的是从 benchmark/runtime 到真实 scientific campaign 的中间层。
它目前仍然不是更高一级,因为证据主要来自 arXiv 预印本和作者体系内评测,领域范围也主要集中在 computational catalysis。论文自己也明确承认,距离真正的 scientific closure 还需要更可靠的 physical engines 和更严格的 domain methodology,因此它更适合定为一篇强的 workflow breakthrough,而不是更高层级的范式改写。