Foundation Models for Discovery and Exploration in Chemical Space

物理与 AI for Science 突破级暂无讲解视频

发表时间: 2025-10-20
arXiv: 2510.18900

收录解读

这篇论文瞄准的是化学空间探索中的核心瓶颈：现有分子表示和性质预测体系覆盖面窄、任务割裂，很难支撑真正跨化学领域的发现与筛选。作者试图建立一个面向广泛分子结构和性质的统一基础模型，而不只是某个单项 benchmark 的最优器。

方法上，论文提出 MIST 系列分子基础模型，在参数量和训练数据规模上都显著超过既有工作，并设计了同时编码核、电子和几何信息的 tokenization 方案。模型先在大规模无标签分子数据上预训练，再在 400 多个 structure-property 关系上微调。作者还把 mechanistic interpretability 和 scaling-law 分析嵌进去，使其不只是一个黑盒预测器。

它在仓库里的意义在于：这是“foundation model for chemistry”路线的代表作之一，和 AlphaGenome、MOSAIC、QUASAR 这些条目一起，构成 AI 进入分子与材料发现的不同底层形态。它的价值不在单个任务分数，而在把跨性质、跨场景化学预测放到统一底座上。

我把它放在“突破性”。原因是它外溢性很强，覆盖真实化学空间探索，但目前仍主要体现为高质量基础模型工程与实验体系，还不到彻底重写整个化学 AI 版图的等级。

链接

论文链接