Cross-material catalyst discovery via deep learning
这篇 Nature Materials 论文把催化剂发现从单一材料家族内搜索推进到跨材料家族迁移,目标是利用机器学习把单原子催化剂和钙钛矿氧化物之间的实验知识连接起来。 方法上,作者通过自动统计分析和自然语言分析选出共享活性相关 co-descriptors,再训练 crossbreeding neural n...
这篇 Nature Materials 论文把催化剂发现从单一材料家族内搜索推进到跨材料家族迁移,目标是利用机器学习把单原子催化剂和钙钛矿氧化物之间的实验知识连接起来。 方法上,作者通过自动统计分析和自然语言分析选出共享活性相关 co-descriptors,再训练 crossbreeding neural n...
这篇 Nature Machine Intelligence 论文提出 UniAIR,用统一的多模态框架预测抗体、抗原、TCR-pHLA 等自适应免疫识别场景中的突变效应,目标不是单一预测器,而是跨任务、跨模态的免疫识别基础方法。 方法上,UniAIR 组合标准化数据管线、面向界面的序列-结构融合 Transf...
这篇 npj Computational Materials 论文把 LLM agents 用到异相催化发现,而不是只做文献问答或自动脚本执行。 MASTER 将自然语言推理、multi-agent collaboration 和 density functional theory workflows 连接起来...
SOFisher 针对空间组学实验设计的现实瓶颈:研究者需要决定测什么 target 和在哪里放置 FOV,密集采样再拼接成本高、耗时长,有时甚至不可行。 论文提出 reinforcement learning framework,根据已经采样的 FOV 序列选择下一个 FOV 位置,以更少采样捕获更多 reg...
这篇 Nature Machine Intelligence 论文把质谱蛋白质组解析从多个分散工具推进到统一的 multimodal foundational model。 pUniFind 在超过 100 million open search-derived spectra 上训练,通过 spectral...
这篇论文把蛋白工程中已成熟的 generative inverse design 思路扩展到 DNA origami,用于探索更复杂几何和功能的 DNA 纳米结构设计空间。 作者为缺少大规模标准结构数据的问题设计了基于 multiscale computational model 的模拟平衡构象训练数据,并用...
SciCore-Mol 针对科学 LLM 处理分子数据时的结构性问题:把拓扑分子和连续反应信息压成离散文本会造成信息损失和语义噪声。 框架把 topology-aware perception、latent diffusion-based molecular generation 和 reaction-awar...
MIDAS 面向免疫治疗新靶点发现,把基因互作、多组学患者数据、免疫细胞知识、抗原处理、疾病关联和扰动表型整合进多模态图神经网络。 论文报告 MIDAS 能在时间切片数据上泛化,优于 OpenTargets 等基线,并在未见患者中恢复免疫治疗响应相关基因;后续用患者来源肿瘤 explant 验证 OSM-OSM...
这篇 Nature Communications 论文把机器学习引入近红外荧光材料工程,用于 Mo4+ activated halide phosphors 的设计和筛选,并面向 AI-augmented medical imaging。 它的价值不在单个材料性能,而在材料发现链条:通过 ML-guided e...
这篇 Nature Computational Science 论文提出 HESpotEx,用全切片 H&E 病理图像预测 spatial transcriptomics 的 spot-level gene expression。它面向的是 ST 成本高、难以规模化的问题。 系统结合 graph attenti...
这篇 Nature Communications 论文提出 SUCCEED,一个大规模监督多任务 DNA foundation model,目标是解决序列模型在不同基因组任务中需要反复重训、可扩展性不足的问题。 SUCCEED 在 6,389 条 ENCODE 功能基因组 tracks 上预训练,结合卷积层和...
这篇 Nature Communications 论文把材料发现问题组织成 physically informed variational learning。目标是发现高硬度多组分 bulk metallic glasses,而不是只做材料属性拟合。 它的关键价值在于把 attention、variationa...
这篇 Nature Communications 论文重要在于评估基础设施,而不是又提出一个 drug response predictor。Drug response prediction 长期受数据泄漏、拆分策略和外推能力问题影响。 DrEval 的价值是把模型可靠性、评估协议和可比性推到前台。对 AI d...
这篇 Nature Computational Science 论文把 LLM 直接改造为面向化学空间探索的生成和搜索工具。它的重点不是普通 QSAR 预测,而是让模型参与 directed chemical space exploration。 SmileyLlama 的价值在于把语言模型的序列生成能力接到分...
Path2Space 针对 spatial transcriptomics 的核心瓶颈:ST assay 成本高,难以在大规模临床队列中用于 biomarker discovery。 方法训练深度学习模型从常规病理切片直接预测空间基因表达,在乳腺癌 ST 数据上学习后可预测数千个基因的空间表达,并优于 21 个...
这篇 Nature Communications 论文提出 DAO,用双 Siamese foundation model 处理从化学组成预测晶体结构的问题。晶体结构预测是材料发现中的基础瓶颈,难点在复杂三维几何和能量稳定性。 DAO 集成结构生成器和能量预测器,先在稳定与不稳定结构的大规模数据上预训练,再让能...
大多数 machine-learning molecular dynamics 仍然受制于一个老瓶颈:哪怕势能面学得很好,数值积分还是把时间步长卡得很小。TrajCast 的关键改写是直接预测位置和速度更新,从而把‘先算力、再积分’这条传统链路绕开。 它的价值不只是快,而是给出了 force-free、auto...
分子生成领域一直有一个老问题:模型能生成很多‘看起来像分子’的图,但离真实可合成、可用的候选还有距离。这篇工作有价值的地方,在于它不是继续追求 unconstrained novelty,而是把 realistic synthetic molecules 当成一等目标。 从方法形态看,它属于 constrain...
这篇 Communications Materials 论文提出 GENIUS,用 agentic AI 自动设计并执行材料模拟协议,针对的是 ICME 中非专家难以配置和调试高端模拟代码的问题。 系统融合 Quantum ESPRESSO 知识图谱、分层 LLM 和有限状态错误恢复机,把自由文本需求转化为可早...
这篇工作的强点在于,它不是一个把 pathology image 接到一个更大模型上的任务系统,而是把 biomarker discovery 本身做成了 agentic scientific workflow。SPARK 会围绕生物学概念提出分析思路、细化参数、生成和验证代码,并在大队列上筛出可解释的 mar...
这篇论文的关键不是把材料问答简单套上 LLM,而是把 atomic structure 以 full-resolution 形式接进 multimodal LLM。过去很多材料 LLM 主要依赖 formula、SMILES 或 CIF 这类文本化表示,无法真正利用原子局部环境和三维结构关系。 MatterCh...
这篇论文解决的是 3D metamaterial inverse design 里一个长期卡点:结构空间太复杂、表示不统一,导致生成模型很难同时拥有表达能力、可控性和跨拓扑泛化。作者的做法是把三维几何编码成 algebraic language,把结构设计转成更适合 transformer 处理的“数学句子”...
这篇论文抓住了分子机器学习里一个长期但经常被低估的问题:模型在训练分布边缘之外往往迅速失真,但很多工作只报告平均测试集性能,几乎不显式刻画“离训练化学空间有多远时还可信”。作者的重点不是再做一个 predictor,而是为 chemical-space generalization 引入更可用的估计量。 方法上...
这篇 Nature Communications 论文面向动态代谢网络建模中的关键瓶颈:缺少足够酶动力学参数,导致大规模 kinetic models 难以构建和迁移。 作者不是重新训练生成模型,而是提出 latent-space exploration,把已有生成网络的 latent variables 当成...
这篇论文的亮点不只是“AI 帮忙找到了药”,而是把 rare disease 药物发现组织成了一个更可靠的双轨工作流:一边是针对细胞类型表型的 deep-learning repurposing screen,另一边是 yeast 生存筛选,最后在脑类器官里收敛到同一类候选。对于罕见病,这种流程比单一 pred...
这篇 Nature Communications 论文提出 HANNA,用硬约束物理定律训练 excess Gibbs energy 机器学习模型,解决多组分液体混合物热力学性质从分子结构预测的长期难题。 HANNA 不是只在损失中加入软正则,而是把热力学一致性作为硬约束,联合利用汽液平衡、液液平衡、无限稀释活...
这篇 Nature Communications 论文提出 KIMMDY,目标是让分子模拟能处理生物体系中连续、竞争、慢时间尺度的反应事件。传统分子动力学难以直接覆盖这些反应过程。 KIMMDY 用 kinetic Monte Carlo 在构象集合上模拟反应,并可接入图神经网络进行大规模反应速率预测,同时也支...
这篇 Nature Communications 论文提出 scDiffusion-X,用 latent diffusion 处理单细胞多组学数据的集成、生成和跨模态翻译。它瞄准的是多组学实验受成本、规模和覆盖限制时的 in-silico 数据生成与补全问题。 核心模块是 Dual-Cross-Attentio...
这篇 bioRxiv 论文把 virtual cell 明确定义为细胞世界模型,并把关键子问题落到 perturbation-response modeling:预测遗传和化学扰动如何影响转录响应。 VCHarness 的核心不是又一个生物预测模型,而是一个自动构建模型的 AI 系统:coding agent...
这篇工作针对分子动力学里最核心也最顽固的瓶颈之一:传统 MD 以飞秒级步长推进,原子级细节足够好,但很难触达真正决定化学与生物功能的慢构象变化和弛豫过程。问题不是单纯把模拟再跑久一点,而是如何在不丢失物理可信度和原子分辨率的前提下,把可访问时间尺度有效拉到纳秒级甚至更高。 论文提出一个可迁移的深度生成建模框架...
理解人类发育过程中顺式调控元件如何工作,长期受限于数据粒度和建模接口两端都不够完整。一方面,发育期单细胞层面的染色质开放性与基因表达图谱长期碎片化,难以支撑跨器官、跨细胞类型的统一比较;另一方面,很多序列模型虽然能做局部预测,却难以把 motif 组合规则、协同约束和变异效应解释组织成真正可复用的 regula...
这篇工作针对光活性分子体系中的一个长期瓶颈:激发态和基态联合模拟在精度与成本之间长期难以兼得。太阳能材料、有机发光、光催化和光动力学等场景都依赖高质量 excited-state simulation,但第一性原理方法的代价过高,直接限制了大规模筛选、动力学模拟和分子设计的吞吐能力。 论文提出 OMNI-P2x...
这篇论文处理的是 drug discovery workflow 里一个非常实际但长期没有被系统解决的问题:药物分子评估、筛选和优化通常要跨多个学科工具和几十步顺序操作,通用 agent 在这种长链、高约束场景里往往很快失稳。作者把问题明确成“workflow orchestration competence”...
这篇 Science Advances 论文提出 EMSeek,把电镜图像到材料分析的多阶段流程整合成 autonomous agentic platform。它针对的是当前 EM 工作流在分割、晶体重构、性质建模和文献解释之间割裂、依赖专家、耗时数周的问题。 平台由五个关键单元组成:reference-gui...
这篇工作针对自动化化学里一个长期缺口:即便合成机器人和标准化实验语言已经存在,论文里的实验步骤仍然充满歧义、遗漏和不可直接执行的自然语言表述,导致文献复现与验证高度依赖人工整理。作者把问题从“让模型规划新实验”转成“让系统忠实地把既有科学文献转成可执行实验程序并验证其真实性”。 方法上的新意在于把大语言模型放进...
这篇工作处理的是化学里一个长期高价值但高度依赖专家经验的逆问题:如何从 1H 和 13C NMR 光谱自动恢复未知小分子结构。传统结构解析虽然成熟,但在复杂样品、陌生骨架和高通量场景下仍然劳动密集、门槛高且难以规模化,直接限制了化学发现与实验闭环的自动化程度。 论文提出 NMR-Solver,把大规模谱图匹配、...
材料科学文献增长过快,研究者即使在自己领域内也很难系统遍历潜在的概念组合与未来方向。这篇论文关注的不是文献检索本身,而是如何把大规模论文摘要转成结构化概念图,并进一步预测哪些概念组合最可能构成有启发性的新研究方向。 作者先让大语言模型从材料科学摘要中抽取概念与语义信息,再构建概念图,将‘研究方向预测’转化为历史...
单序列蛋白结构预测的重要性持续上升,因为很多蛋白缺乏足够同源信息,而传统依赖 MSA 或模板的路线在这些场景下成本高、覆盖差。这篇论文瞄准的就是如何在不依赖同源信息的情况下,仍然高效地得到高质量结构预测。 作者提出 TDFold,用二维几何模板扩散先生成成对距离和方向等 pairwise geometries...
AI for drug discovery 已经有大量生成模型和结构模型,但真正拖慢速度的往往是跨 literature review、target analysis、epitope selection、candidate design、validation 到 lab-ready selection 的整条研...
蛋白质功能越来越需要在复合体与互作层面理解,但现有结构资源长期偏向单体,导致很多生物学与药物发现工作仍停留在序列、单体结构或零散相互作用证据上。AlphaFold Protein Structure Database 已经把单体结构访问门槛大幅降低,这篇工作继续把问题推进到 proteome-scale 的复合...
医学影像里的 foundation model 真正难的地方,不是简单把图像模型搬到医疗数据上,而是如何利用临床场景中天然存在但噪声很高的弱监督信号,让模型学到跨疾病谱、跨任务可迁移的表示。心脏 MRI 尤其如此:它是时序影像、结构复杂、病种跨度大,而且临床价值高度依赖下游诊断和报告场景。 这篇工作提出的核心...
分子优化里最棘手的问题之一,是 activity cliffs 让微小结构变化触发巨大的性质跃迁,而许多深度学习方法又依赖相似性原则和黑箱表征,难以给出可解释的结构操作路径。MolEvolve 处理的不是普通的 property prediction 提分,而是如何让分子优化过程本身变成一个可规划、可解释、可工...
化学实验自动化的长期瓶颈,不是机器人能不能重复执行少数标准步骤,而是面对真实实验室里层出不穷的 long-tail 操作时,系统能不能感知实验状态、动态调整计划并处理不完全标准化的器械与流程。AgentChemist 对准的是这个长期存在但很少被真正解决的问题。 它提出的是一套 multi-agent expe...
药物发现里一个长期难题是:仅靠结构知识并不能真正支撑对新化学空间的可靠推断,导致研发仍高度依赖昂贵筛选。作者把问题重新聚焦为能否直接学习 drug-receptor space 中非键相互作用的普适规律。 这篇工作声称通过更 reductionist 的训练数据组织和模型训练方式,让模型学到对分子识别更可泛化的...
该文关注晶体性质预测在材料发现中的基础瓶颈:实验测量和第一性原理计算成本高,现有机器学习模型又往往依赖带标签数据、结构表示不充分,且缺少可组合的物理约束。论文把问题提升为一个更一般的材料 foundation model 问题,希望在统一表示上同时覆盖多类晶体性质任务。 论文提出 CLOUD,一个基于 tran...
酶工程里的核心瓶颈往往不在后续定向进化本身,而在于能否先从巨大蛋白空间里找到值得起步的候选酶。很多机器学习工作能做局部打分,但真正把反应需求映射到可实验验证的 enzyme recommendation,并在大规模数据和真实实验里证明有效,门槛一直很高。 这篇论文提出 Horizyn-1,用 dual-enco...
这篇论文聚焦蛋白工程里一个很核心但长期代价高的问题:如何系统地偏置蛋白的构象状态,从而改变其功能输出。很多蛋白功能并不只由静态结构决定,而取决于开放态、闭合态或中间态之间的构象分布。传统做法往往需要高成本的结构分析、分子动力学或大量实验筛选。 作者提出 conformation biasing(CB)方法,利用...
问题与背景:单细胞 RNA 测序数据极其丰富,但从表达矩阵到机制性生物学假设之间仍有明显鸿沟。现有 agent 往往缺少对真实表达表示的访问,而表达基础模型又难以直接和自然语言推理对接。 方法/新意:ELISA 将 scGPT 表达嵌入、BioBERT 语义检索和 LLM 解释器组合起来,形成一个可交互、可解释...
问题与背景:功能核酸和适配体设计空间巨大,传统 HT-SELEX 实验筛选效率有限,而核酸语言模型的生成能力仍缺乏系统验证。论文把问题定位为如何让 NA-LLM 真正进入 de novo functional nucleic acid design。 方法与机制:InstructNA 将核酸大语言模型与 HT-...
This Nature Communications paper uses machine learning to accelerate enzyme-nanohybrid discovery, targeting a bottleneck in immobilized enzymes where carrie...
这篇论文处理的是一个很强的 AI for biology 目标:能否构建一个可泛化的 virtual cell world model,用来预测细胞在扰动下的动态响应。现实问题很明确,真实实验筛选受到组合空间和成本的强限制,而现有计算模型又往往只在高变基因、局部表达重建或特定细胞背景里有效,难以把学到的扰动动力...
这篇论文针对生成式分子设计里一个长期存在的落地问题:模型可以生成看起来新颖、目标性质优异的分子,但往往在可合成性上出问题,导致候选很难真正走到实验端。作者把问题从‘先生成再筛选’推进到‘在生成过程中直接优化受约束的可合成性’,试图把可合成性从后处理指标变成生成目标的一部分。 方法上的关键是 TANGO 把 co...
这篇论文处理的是 AI for science 里一个已经很现实的问题:通用大语言模型是否真的适合被改造成高质量的材料研究 copilot,还是需要更深层次的领域化预训练。作者围绕这一问题构建了 LLaMat,一组面向材料科学的专用大语言模型,并把性能评估扩展到从自然语言处理、信息抽取到晶体生成在内的 42 个...
很多 self-driving lab 系统虽然能自动优化工艺参数,但本质上仍然是黑盒 optimizer,难以沉淀成可迁移的科学知识。这篇论文的关键价值,在于把自动实验平台从“找到最优点”推进到“提炼可供人类使用的增长规则”。 作者在 sputter epitaxy 场景下,把 Bayesian optimi...
这篇论文属于 AI for science / self-driving lab 方向里比较扎实的一类工作:不是泛泛谈 autonomous lab,而是在原子层外延薄膜合成中做实时闭环决策。核心问题是多维工艺参数空间搜索成本高,而材料制备过程中的反馈又是连续且高时效的。 作者把实时计算机视觉分析的 RHEED...
这篇论文处理的是电解液设计里一个典型但很难系统解决的问题:盐–溶剂化学空间极大、配方分布长尾、结构与电导率之间高度非线性,导致传统经验筛选和常规监督模型都难以在真实化学空间里稳定泛化。作者把问题集中到非水电解液的离子电导率预测与候选发现上,目标不只是做一个更准的回归器,而是建立一个能兼顾长尾数据、全空间覆盖和可...
问题与背景:这篇论文试图把基因组建模从局部任务模型提升为跨生命全域的统一基础模型。传统基因组模型通常只覆盖特定物种、特定长度或特定任务,而 Evo 2 的目标是同时覆盖细菌、古菌和真核生物序列,并把预测与设计放进同一框架。 方法/新意:论文提出 Evo 2 这一大规模基因组 foundation model,使...
问题与背景:药物发现中的 pocket-conditioned 分子生成、连接、优化和肽设计往往由不同模型分别处理,任务接口割裂,难以形成统一原子级生成框架。 方法与机制:PocketXMol 使用 atomic prompts 作为任务规格,把与蛋白 pocket 相互作用相关的多类 3D molecular...
无序蛋白及无序区域并不是少数例外,而是细胞功能和分子识别中的核心组成部分。难点在于它们不对应单一稳定结构,而是跨越大范围构象 ensemble。传统计算方法往往要么精度不够,要么成本过高,很难支持大规模序列搜索、条件分析和快速设计。 STARLING 把 physics-based force fields 与...
问题与背景:AI 已经能加速材料发现,但从实验室配方走向工业制造仍受制于私有工业数据稀缺、应用指标缺位和实验系统难以闭环。AP-Lab 把这个断点作为核心对象,而不是只做一个材料预测模型。 方法与机制:论文构建 AI-driven autonomous pilot-scale laboratory,以磁性纳米颗...
药物设计里最难被真正规模化的一层,不是再做一个更快的 docking surrogate,而是在 novel chemical space、novel pockets 和复杂 biomolecular interfaces 上,同时做到结构、口袋和亲和力预测的稳定泛化。IsoDDE 这份技术报告的意义,在于它把...
问题与背景:离子化脂质是 mRNA 递送系统的核心部件,但其设计空间极大,传统依赖人工经验和低通量筛选,导致发现速度慢、成本高。LUMI-lab 试图把 foundation model、实验自动化与闭环优化结合起来,解决脂质设计中的组合爆炸问题。 方法/新意:这项工作构建了一个由基础模型驱动的自主实验平台,将...
- 分级:`颠覆性` - 正式标题:`QUASAR: A Universal Autonomous System for Atomistic Simulation and a Benchmark of Its Capabilities` - 原文:`2026-01-30-C2_QUASAR-QUASAR_A_U...
问题与背景:金属水解酶能够催化生物体系中最困难的一类水解反应,但从头设计高活性金属酶一直非常困难,过去往往活性偏低、需要大量定向进化补救。论文聚焦的核心问题是:能否直接从计算设计出具有真实高催化效率的 metallohydrolases,而不是停留在概念验证层面。 方法/新意:作者引入 RFdiffusion2...
问题与背景:现有 genomic foundation models 主要依赖单核苷酸输入上的大规模神经计算去隐式学习生物 motif,但这种做法在效率和显式结构利用上都有明显限制。 方法/新意:Gengram 提出 retrieval-augmented genomic foundation model 思路...
这篇论文针对的是 AI for science 里一个很硬的未闭合问题:现有系统通常只能自动化科研流程中的一个局部环节,但还做不到在单一架构下贯通课题设定、文献分析、原子级模拟、机器学习建模、机理发现和论文成稿。作者把场景收敛到 computational catalysis,直接测试 agent 是否能在一个...
问题与背景:生物医学知识图谱的链路预测直接关系到药物重定位、基因功能注释和合成致死发现,但传统基于节点嵌入的方法对多跳关系和路径语义建模不足,可解释性也有限。 方法/新意:BioPathNet 以 neural Bellman-Ford network 为基础,用路径级推理替代单点嵌入匹配,并引入背景调控图和严...
- 分级:`颠覆性` - 正式标题:`Collective intelligence for AI-assisted chemical synthesis` - 原文:`2026-01-19-C1_MOSAIC-Collective_intelligence_for_AI_assisted_chemical_s...
问题与背景:非编码变异的功能解释一直是人类遗传学和疾病机制研究中的核心难题。单纯依赖序列模型或孤立组学信号,往往难以把变异、调控元件、细胞类型和疾病机制统一到同一框架里。 方法/新意:BRAIN-MAGNET 构建了一个面向脑组织非编码变异解释的功能基因组图谱,将多组学证据和脑相关细胞类型信息耦合起来,用于更系...
这篇论文关注的不是单个化学实验算法,而是如何为机器人化学实验室建立高保真数字孪生,从而在真实部署前完成流程设计、技能组合和工作流验证。它符合本仓库对 AI 自动化研究和科研工作流模式的偏好。 MATTERIX 的核心是一个多尺度、GPU 加速的仿真框架,把机器人操作、粉末与液体动力学、设备功能、热传递、基本反应...
这篇论文解决的是合成生物学和基因调控设计中的核心问题:如何系统地设计紧凑、细胞类型特异的调控元件。它不是把生成模型简单套到序列上,而是把生成式 AI 直接嵌入到 regulatory design workflow,并做了实验级验证。 DNA-Diffusion 使用不同细胞系的 DNA accessibili...
蛋白稳定性预测是蛋白工程里最基础也最难泛化的能力之一。很多模型在特定数据集上可以做得不错,但一旦换蛋白家族、换突变分布或换实验条件,性能就很容易掉下来。这篇论文切的是“能不能做一个真正可泛化、可扩展的稳定性建模基础设施”。 方法上,论文把 protein generative models 做了 rewirin...
这篇论文关注一个很难的生物设计问题:针对 intrinsically disordered proteins 设计可行的 biologics。难点在于靶点结构不稳定、设计空间大、需要跨越检索、推理和候选筛选多个环节。 方法上,作者不是单纯训练一个生成模型,而是引入 agentic reasoning 流程,把知...
问题与背景:从头蛋白设计已经能支架化单个功能 motif,但天然蛋白常同时呈现多个功能位点。多表位、小单域蛋白的准确设计仍是高难度问题。 方法与机制:论文使用深度学习设计小于 130 个残基的单域免疫原,同时展示呼吸道合胞病毒的三个互不重叠、不规则 motif,并通过 X-ray crystal structu...
问题与背景:酶设计通常从过渡态周围的催化官能团理想几何出发,但现有 AI 方法往往要求预先指定残基位置或从侧链反推主链,限制了活性位设计自由度。 方法与机制:RFdiffusion2 直接从 functional group geometry 生成可放置活性位的蛋白支架,不需要指定残基顺序,也避免了逆 rota...
这篇论文处理的是蛋白设计里一个最硬的问题之一:如何不再只设计稳定折叠蛋白,而是直接为明确的催化基元构建高活性酶。传统 de novo enzyme design 往往需要筛大量候选,初始活性也偏低,离工业或化学生物应用还有很长距离。作者把问题重构为 catalytic motif scaffolding,并用生...
肽药与功能肽发现的难点不在于候选不够多,而在于库太大、计算筛选太贵、实验预算太有限。传统 exhaustive screening 在库规模上很快失去可行性,因此真正有价值的问题是怎样在超大肽库上做可扩展的探索。 这篇论文用 reinforcement learning 和 posterior sampling...
多数蛋白生成模型仍然主要在序列或结构空间里工作,而很难直接接受自然语言形式的功能描述。这限制了蛋白设计系统作为通用设计接口的可用性。ProtDAT 抓的就是“能否从蛋白文本描述直接设计序列”。 论文构建了一个统一多模态框架,把 protein text、sequence 和相关结构信号耦合起来,使模型能够从细粒...
蛋白和酶设计里,语言模型已经能提供序列层面的启发,但从结构、静电环境到机制层的可解释假设生成仍然高度依赖专家。本文针对的是这个缺口:如何让 LLM 不只是生成候选序列,而是生成带机制解释、可实验检验的设计假设。 作者提出 Genie-CAT,一个带工具增强的 agentic LLM 框架,把文献检索、PDB 结...
问题与背景:missense variant interpretation 的难点在于跨蛋白、跨疾病严重度和未见变异的可比性。许多模型能在已知疾病基因内分类,但不能稳定地把不同基因上的变异放到同一严重度尺度上。 方法与新意:popEVE 结合 EVE/ESM 等进化序列信息与 UKBB、gnomAD 等人群约束...
- 分级:`颠覆性` - 正式标题:`Deep generative classification of blood cell morphology` - 原文:`2025-11-19-C3_CytoDiffusion-Deep_generative_classification_of_blood_cell_m...
问题与背景:基因组生成模型正在变强,但如何控制模型生成具有指定功能、且远离天然序列空间的新基因仍是关键瓶颈。 方法与机制:论文利用 Evo genomic language model 的上下文学习能力,把编码目标功能的 DNA prompt 作为 genomic autocomplete 条件,执行 sema...
生物实验和细胞/类器官制造面临的核心问题,不只是 protocol 多、执行复杂,更在于 planning、wet-lab execution、phenotyping、literature grounding 和后续改进通常是割裂的。作者把问题提升为一个 agentic-physical research li...
问题与背景:mRNA 疗法的疗效高度依赖蛋白表达效率,但传统 codon optimization 难以同时适配基因、细胞环境和不同 mRNA 格式。论文把 mRNA 序列设计视为可生成优化的问题。 方法与机制:RiboDecode 直接从大规模 ribosome profiling 数据学习,生成用于增强翻译...
问题与背景:单细胞测序数据规模巨大且解释困难,研究者需要把表达矩阵、细胞注释和生物学问题连接起来,而不是只得到聚类或标签。 方法与机制:CellWhisperer 通过 100 万 RNA-seq profile 和 AI-curated 文本描述进行对比学习,建立 transcriptome-text mul...
问题与背景:卤化物钙钛矿纳米晶生长的精确、可复现实验控制很难,传统实验依赖经验调参,难以稳定达到目标光学属性。 方法与机制:Synthesizer 将高斯过程回归、贝叶斯优化、chemistry-aware 分子编码和系统特征工程结合,形成面向 benchtop synthesis 的机器学习指导平台,实现发光...
这篇论文针对单细胞领域一个非常实用且长期困难的问题:如何在不同细胞类型和不同环境刺激下,预测转录组会如何演化。无论是细胞分化、基因扰动、药物作用,还是辐照与生长因子刺激,真实实验都成本高、组合空间极大,因此非常需要一个能跨条件模拟细胞状态变化的生成模型。 Squidiff 的核心方法是用 diffusion m...
这篇 Findings EMNLP 2025 论文把分子优化建模为多智能体工具推理流程,而不是单一生成模型或单一性质预测器。它让不同 agent 承担生成、评估、约束检查和迭代改进等角色,并通过工具调用把推理落到可验证的化学计算与评价上。 它的重要性在于 workflow pattern:分子设计系统开始从“模...
问题与背景:组织功能依赖细胞局部微环境,但只用 dissociated single-cell 数据训练的模型难以恢复空间上下文。论文聚焦于把空间单细胞组学纳入 foundation model 预训练。 方法与机制:Nicheformer 是 transformer-based foundation mode...
问题与背景:基因组注释工具常针对单一元素类别训练,监督数据有限,难以统一检测基因、剪接位点和调控元素。论文将问题重构为单核苷酸分辨率的 multilabel semantic segmentation。 方法与机制:SegmentNT 基于预训练 DNA foundation model Nucleotide...
问题与背景:这篇 Nature 原始研究聚焦染色体不稳定性(chromosome instability, CIN)的起源,这是癌症演化与耐药研究中的核心问题。传统方法要么侧重显微成像,要么侧重基因组学,很难在同一实验链路里同时追踪细胞形态变化与基因组异常的形成过程。 方法/新意:论文把自动显微成像、机器学习筛...
单域抗体在组织穿透和稳定性上有优势,但它们缺失 Fc 相关性质,很多工业化和功能扩展能力因此受限。这篇论文抓的不是一般 antibody generation,而是“能否面向特定可制造性与功能性目标去定制 sdAb”。 论文提出 generative + ranking 的双阶段框架:先用结构感知 diffus...
这篇论文处理的是 AI drug discovery 里最硬的一类问题:如何把高成本、高噪声的湿实验筛选,扩展为真正可在超大化学空间上运行的深度学习虚拟筛选流程。抗菌药物发现尤其困难,因为活性分子稀缺、化学空间巨大、而且命中率通常极低,导致传统高通量筛选既昂贵又扩展性差。 论文用约两百万分子的高通量筛选数据训练...
问题与背景:结构化肽设计通常依赖生成模型,但生成模型训练昂贵、目标函数难改,限制了实验室按需设计可测属性的效率。论文关注的是能否用更轻量、可控的优化框架完成 tailored peptide design。 方法与机制:Key-Cutting Machine 使用结构预测作为内循环,以 estimation-o...
问题与背景:晶体材料生成需要同时处理晶格参数、原子坐标、元素类型和对称性,普通生成模型很难在物理约束和条件生成之间取得平衡。 方法与机制:CrystalFlow 将 Continuous Normalizing Flows、Conditional Flow Matching、图等变神经网络和 symmetry-...
这篇论文针对连续流催化反应器设计中的长期瓶颈:几何结构设计、可打印性约束、制造实现和实验评估通常被拆散在多个环节里,导致设计空间探索依赖人工经验,迭代慢且难以系统比较。 论文提出 Reac-Discovery 平台,把参数化 periodic open-cell reactor design、printabil...
问题与背景:AI-assisted protein design 工具正在降低蛋白工程门槛,也可能生成能绕过现有核酸合成订单筛查的危险蛋白变体。核酸合成筛查是生物安全链条中的关键 choke point。 方法与机制:论文评估开源 AI 蛋白设计软件能否重设计 proteins of concern 并逃避现有...
生物催化要真正进入合成路线设计,难点并不只是找到“会做这类反应的酶”,而是化学底物空间和蛋白序列空间之间长期缺乏高质量连接。这导致很多 biocatalysis 项目要靠漫长的筛酶和蛋白工程试错。 这篇论文通过高通量实验先大规模补全底物-酶配对数据,再构建 CATNIP 这样能够在 chemical space...
- 分级:`颠覆性` - 正式标题:`A multimodal robotic platform for multi-element electrocatalyst discovery` - 原文:`2025-09-23-C4_CRESt-A_multimodal_robotic_platform_for_mu...
蛋白工程的核心瓶颈一直是实验搜索空间过大:单点突变还能穷举,多位点组合一旦展开,湿实验成本和迭代速度都会迅速失控。这篇论文正面解决的是“如何把实验蛋白工程变成可持续、可加速的主动探索过程”,而不是只再做一个更准的序列打分器。 论文把 fitness landscape modelling 和 reinforce...
这篇 Science 论文处理的是蛋白质建模里一个比单结构预测更困难的问题:如何高效近似蛋白质的平衡构象分布,也就是 protein equilibrium ensembles。传统分子动力学虽然能给出动态分布,但成本极高,难以大规模覆盖;而只预测单一静态结构又不足以刻画真实功能相关的构象变化。 论文提出用生成...
这篇论文解决的是蛋白结构预测工作流里一个很实用但长期缺口明显的问题:如何快速、准确地从单条氨基酸序列预测蛋白 homo-oligomer 的对称性。很多蛋白必须组装成同链多聚体才能发挥功能,但过去这一步往往依赖模板搜索或成本更高的结构建模流程,速度和覆盖率都受限。 作者的做法是对多类 protein found...
这篇论文要解决的是合金设计中一个非常现实的瓶颈:真正有价值的材料发现往往需要同时完成知识检索、物理模拟、图像和数值结果分析以及多目标设计权衡,这类流程长期依赖人类专家手工串联,效率低且难以扩展。 AtomAgents 的核心是一个 physics-aware multimodal multi-agent 框架...