科学发现旗舰工作 突破级 暂无讲解视频
发表时间
2026-05-30
DOI
10.64898/2026.05.27.727615

核心要点

问题/背景
这篇 bioRxiv 预印本把 agentic workflow 用在空间组学档案整理上,针对的是 GEO 等公共库中 metadata 破碎导致的 multimodal molecular-histological dark data 问题。
方法/机制
SpatialDataAgent 结合 schema-constrained evidence evaluation 和 self-refining standardization agent,自动判断 H&E 与 spatial transcriptomics 数据是否配对,并把证据、置信等级和标准化输出组织起来。
结果/证据
在十年 GEO 记录上,系统找到 769 个配对 H&E-ST 数据集,相比人工整理基线扩大 6.4 倍,并构建包含 2920 万 spots/cells 的 HESRT datalake。
收录价值
收录价值在于它不是单点预测模型,而是可复用的 autonomous scientific data curation workflow,为科研 agent 如何把暗数据转为可训练数据资产提供了明确系统模式。
完整收录解读

这篇 bioRxiv 预印本把 agentic workflow 用在空间组学档案整理上,针对的是 GEO 等公共库中 metadata 破碎导致的 multimodal molecular-histological dark data 问题。

SpatialDataAgent 结合 schema-constrained evidence evaluation 和 self-refining standardization agent,自动判断 H&E 与 spatial transcriptomics 数据是否配对,并把证据、置信等级和标准化输出组织起来。

在十年 GEO 记录上,系统找到 769 个配对 H&E-ST 数据集,相比人工整理基线扩大 6.4 倍,并构建包含 2920 万 spots/cells 的 HESRT datalake。

收录价值在于它不是单点预测模型,而是可复用的 autonomous scientific data curation workflow,为科研 agent 如何把暗数据转为可训练数据资产提供了明确系统模式。

论文摘要

SpatialDataAgent 是一种具有代理性的工作流程,用于自主的空间组学数据整理。它结合了模式约束的证据评估与自改进的标准化代理,从十年 GEO 记录中识别出 769 个 H&E-空间转录组数据集对,并构建了 HESRT,包含 29.2 百万个 spot/cells。

英文原文

SpatialDataAgent is an agentic workflow for autonomous spatial omics data curation. It combines schema-constrained evidence evaluation with a self-refining standardization agent, identifies 769 paired H&E-spatial transcriptomics datasets from a decade of GEO records, and builds HESRT with 29.2 million spots/cells.

相关论文

链接