化学、生物与自动化实验室 突破级 暂无讲解视频
发表时间
2026-04-22
DOI
10.1038/s42256-026-01216-w

收录解读

这篇论文抓住了分子机器学习里一个长期但经常被低估的问题:模型在训练分布边缘之外往往迅速失真,但很多工作只报告平均测试集性能,几乎不显式刻画“离训练化学空间有多远时还可信”。作者的重点不是再做一个 predictor,而是为 chemical-space generalization 引入更可用的估计量。

方法上,他们把性质预测和分子重建联合建模,提出 reconstruction-based unfamiliarity 指标,用来估计样本相对训练分布的陌生程度以及模型在该点的可靠性。它不只检测 OOD,还在 30 多个 bioactivity 数据集上表现为 classifier performance 的稳定预测信号。

它值得正式收录,因为 unfamiliarity 是很有复用潜力的方法原语。对于 virtual screening、active learning、分子库优先级排序,以及 wet-lab 前的风险控制都很有意义。更重要的是,作者还做了两条 kinase 的实验验证,说明这个指标不是纸上泛化,而能真的帮助发现结构上更远的新活性分子。

它没有升到更高等级,是因为当前贡献仍集中在 molecular ML 的 generalization diagnostics 与 screening workflow,虽然很强,但还没到重构整个药物发现基础设施的级别。

链接