科学发现旗舰工作
突破级
暂无讲解视频
核心要点
- 问题/背景
- 这篇 bioRxiv 预印本把 agentic workflow 用在空间组学档案整理上,针对的是 GEO 等公共库中 metadata 破碎导致的 multimodal molecular-histological dark data 问题。
- 方法/机制
- SpatialDataAgent 结合 schema-constrained evidence evaluation 和 self-refining standardization agent,自动判断 H&E 与 spatial transcriptomics 数据是否配对,并把证据、置信等级和标准化输出组织起来。
- 结果/证据
- 在十年 GEO 记录上,系统找到 769 个配对 H&E-ST 数据集,相比人工整理基线扩大 6.4 倍,并构建包含 2920 万 spots/cells 的 HESRT datalake。
- 收录价值
- 收录价值在于它不是单点预测模型,而是可复用的 autonomous scientific data curation workflow,为科研 agent 如何把暗数据转为可训练数据资产提供了明确系统模式。
论文摘要
SpatialDataAgent 是一种具有代理性的工作流程,用于自主的空间组学数据整理。它结合了模式约束的证据评估与自改进的标准化代理,从十年 GEO 记录中识别出 769 个 H&E-空间转录组数据集对,并构建了 HESRT,包含 29.2 百万个 spot/cells。
英文原文
SpatialDataAgent is an agentic workflow for autonomous spatial omics data curation. It combines schema-constrained evidence evaluation with a self-refining standardization agent, identifies 769 paired H&E-spatial transcriptomics datasets from a decade of GEO records, and builds HESRT with 29.2 million spots/cells.