化学、生物与自动化实验室 突破级 暂无讲解视频
发表时间
2025-11-26
DOI
10.1038/s41467-025-65562-w

收录解读

多数蛋白生成模型仍然主要在序列或结构空间里工作,而很难直接接受自然语言形式的功能描述。这限制了蛋白设计系统作为通用设计接口的可用性。ProtDAT 抓的就是“能否从蛋白文本描述直接设计序列”。

论文构建了一个统一多模态框架,把 protein text、sequence 和相关结构信号耦合起来,使模型能够从细粒度文本描述直接生成蛋白序列。重点不在于单次生成看起来像不像,而在于把“文本到蛋白序列”的接口做成可训练、可扩展的生物 foundation-model 能力。

这篇论文值得收录,因为它把自然语言接口真正推进到了 protein design 场景。相比传统定向建模,这类工作会外溢到自动蛋白设计、研究 copilot、设计约束表达和更广的生物基础模型接口。

它没有升到更高一级,因为当前证据更多集中在序列/结构合理性和任务表现,而不是大量湿实验闭环验证。作为接口层和基础模型层工作,它很强,但距离更完整的实验设计平台还有一步。

链接