科学发现旗舰工作 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2606.07591

核心要点

问题/背景
ResearchClawBench 把自动科研 agent 的评估从玩具任务推进到 end-to-end scientific re-discovery:给文献和原始数据,隐藏目标论文,要求 agent 复现科学产物。
方法/机制
基准包含 10 个科学领域的 40 个真实论文任务,并用专家设计的多模态 rubric 分解目标产物,既能评价复现,也允许新的发现路径。
结果/证据
结果显示当前最强 autonomous research agent 也只有约 21.5/100,失败集中在实验协议不匹配、证据不匹配和缺失科学核心。
收录价值
它值得收录,因为它提供了衡量 AI 科学家真实进展的可复用评估前沿,比单纯论文生成或最终答案评测更接近科研工作流。
完整收录解读

ResearchClawBench 把自动科研 agent 的评估从玩具任务推进到 end-to-end scientific re-discovery:给文献和原始数据,隐藏目标论文,要求 agent 复现科学产物。

基准包含 10 个科学领域的 40 个真实论文任务,并用专家设计的多模态 rubric 分解目标产物,既能评价复现,也允许新的发现路径。

结果显示当前最强 autonomous research agent 也只有约 21.5/100,失败集中在实验协议不匹配、证据不匹配和缺失科学核心。

它值得收录,因为它提供了衡量 AI 科学家真实进展的可复用评估前沿,比单纯论文生成或最终答案评测更接近科研工作流。

原始摘要与中文对照

中文对照翻译

ResearchClawBench评估涵盖10个科学领域的40项任务中的自主科学研究。每项任务都基于一篇真实的已发表论文,提供相关文献和原始数据,并在评估期间隐藏目标论文。专家策划的多模态评分标准将目标科学成果分解为加权标准,从而实现目标论文级别的再发现评估,同时为新发现留有空间。当前系统距离可靠的再发现仍有很大差距,最强的自主智能体平均得分仅为100分中的21.5分。

原始摘要

ResearchClawBench evaluates autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose target scientific artifacts into weighted criteria, enabling target-paper-level re-discovery evaluation while leaving room for new discovery. Current systems remain far from reliable re-discovery, with the strongest autonomous agent averaging 21.5 out of 100.

相关论文

链接