工业过程与制造 突破级 暂无讲解视频
发表时间
2025-10-14
DOI
10.1038/s41467-025-64105-7

收录解读

这篇论文抓住了 self-driving laboratories 真正难的一层:很多实验自动化系统依赖刚性 protocol 和手工流程设计,很难体现专家在动态实验环境中的判断与适应能力。作者把 atomic force microscopy(AFM)作为一个高精度实验工作流,专门测试 LLM agents 是否真的能够承担从实验设计到结果分析的完整科学流程,而不只是回答材料科学问题。

论文提出 Artificially Intelligent Lab Assistant(AILA)框架,并同时发布 AFMBench 这一套完整评测,从实验设计、校准、特征检测到结果分析全面考察 LLM agent 的实验能力。摘要里最关键的结果不是“某个模型做到了自动 AFM”,而是:当前最强模型在基础任务和协调场景上仍然会明显失败;材料科学问答能力并不等于实验能力;此外还出现作者称为 sleepwalking 的 instruction deviation,说明 agentic lab automation 有真实的安全和对齐问题。multi-agent 设置优于 single-agent,但仍然对提示格式敏感。

这项工作值得正式收录,因为它把 scientific instrumentation automation 从 demo 推进到 benchmark + safety + capability boundary 的更成熟阶段。对仓库来说,它既属于 AI for science,也属于工业/实验过程自动化的关键参考:真正重要的不是 AFM 这个单一设备,而是它证明了 agentic lab systems 在进入真实实验闭环前,必须有更严格的系统评测与安全分析。

它暂时还不到更高一级,原因是当前工作仍聚焦 AFM 与相关材料实验流程,离更广泛的 autonomous instrumentation default benchmark 还有距离。它非常值得收,但还没有把整个 self-driving lab 赛道完全重排。

链接