A family of large language models for materials research with insights into model adaptability in continued pretraining

化学、生物与自动化实验室突破级有讲解视频

发表时间: 2026-02-27
DOI: 10.1038/s42256-026-01199-8

收录解读

这篇论文处理的是 AI for science 里一个已经很现实的问题：通用大语言模型是否真的适合被改造成高质量的材料研究 copilot，还是需要更深层次的领域化预训练。作者围绕这一问题构建了 LLaMat，一组面向材料科学的专用大语言模型，并把性能评估扩展到从自然语言处理、信息抽取到晶体生成在内的 42 个任务，试图给出一个更完整的材料研究 LLM 版图。

方法上，LLaMat 并不是只做少量 instruction tuning，而是先对 LLaMA 家族进行 continued pretraining，在约 400 万篇材料科学文献和晶体学数据上训练 300 亿 token，再进一步做 17.5 万条材料问答对的 instruction 与 task fine-tuning。更重要的是，论文不只报告性能提升，还比较了不同底座在 continued pretraining 中的可塑性，提出了一个更具普适意义的观察：预训练越充分的模型，未必越容易被新科学领域重塑，反而可能出现 adaptation rigidity。

这篇值得收录，核心不是“又一个垂直领域模型”，而是它把材料科学 LLM 做成了可系统评估的 family，并且把 domain adaptation 的边界问题真正提了出来。对 AI for science 来说，这项结果的外溢点在于：专用科学 LLM 的优势不仅来自领域数据堆叠，也来自底座模型对 continued pretraining 的可塑性差异，这会直接影响后续化学、物理、生物等领域模型的设计选择。

它没有更高一级，因为目前影响面仍主要集中在 scientific language model / domain adaptation 这一层，而不是像 AlphaGenome、QUASAR 这类直接重塑科学工作流的平台型系统。更稳的定位是高质量 breakthrough：一篇兼具应用价值和方法论提醒的 AI for science 条目。

解读视频

B 站 YouTube

链接

论文链接