化学、生物与自动化实验室 突破级 暂无讲解视频
发表时间
2025-10-29
DOI
10.1038/s41592-025-02881-2

收录解读

问题与背景:基因组注释工具常针对单一元素类别训练,监督数据有限,难以统一检测基因、剪接位点和调控元素。论文将问题重构为单核苷酸分辨率的 multilabel semantic segmentation。

方法与机制:SegmentNT 基于预训练 DNA foundation model Nucleotide Transformer 微调,可处理最长 50kb DNA 序列,并在 14 类基因和调控元素上做分割式注释。

为什么重要:它把 DNA foundation model 变成通用基因组注释引擎,提供了序列基础模型服务真实 genomics workflow 的清晰接口。对基因组功能解释和生物数据基础设施有长期价值。

局限:模型依赖既有注释体系,跨物种、低注释区域和功能验证仍有不确定性;它改善注释工作流,但不是完整基因组设计平台。

链接