ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Wanghan Xu; Shuo Li; Tianlin Ye; Qinglong Cao; Yixin Chen; Hengjian Gao; Yiheng Wang; Qi Li; Kun Li; Sheng Xu; Shengdu Chai; Fangchen Yu; Xiangyu Zhao; Zhangrui Zhao; Weijie Ma; Zijie Guo; Haoyu Zhou; Haoxiang Yin; Lixue Cheng; Chaofan Hu; Haoxuan Li; Lu Mi; Xuxuan Xie; Yifan Zhou; Ruizhe Chen; Zhiwang Zhou; Xingjian Guo; Yuhao Zhou; Xuming He; Shengyuan Xu; Xinyu Gu; Jiamin Wu; Mianxin Liu; Chunfeng Song; Fenghua Ling; Dongzhan Zhou; Shixiang Tang; Yuqiang Li; Mao Su; Peng Ye; Siqi Sun; Bin Wang; Xue Yang; Zhenfei Yin; Tianfan Fu; Guangtao Zhai; Wanli Ouyang; Bo Zhang; Lei Bai; Wenlong Zhang

科学发现旗舰工作突破级暂无讲解视频

发表时间: 2026-05-28
arXiv: 2606.07591

核心要点

问题/背景: ResearchClawBench 把自动科研 agent 的评估从玩具任务推进到 end-to-end scientific re-discovery：给文献和原始数据，隐藏目标论文，要求 agent 复现科学产物。
方法/机制: 基准包含 10 个科学领域的 40 个真实论文任务，并用专家设计的多模态 rubric 分解目标产物，既能评价复现，也允许新的发现路径。
结果/证据: 结果显示当前最强 autonomous research agent 也只有约 21.5/100，失败集中在实验协议不匹配、证据不匹配和缺失科学核心。
收录价值: 它值得收录，因为它提供了衡量 AI 科学家真实进展的可复用评估前沿，比单纯论文生成或最终答案评测更接近科研工作流。

完整收录解读

ResearchClawBench 把自动科研 agent 的评估从玩具任务推进到 end-to-end scientific re-discovery：给文献和原始数据，隐藏目标论文，要求 agent 复现科学产物。

基准包含 10 个科学领域的 40 个真实论文任务，并用专家设计的多模态 rubric 分解目标产物，既能评价复现，也允许新的发现路径。

结果显示当前最强 autonomous research agent 也只有约 21.5/100，失败集中在实验协议不匹配、证据不匹配和缺失科学核心。

它值得收录，因为它提供了衡量 AI 科学家真实进展的可复用评估前沿，比单纯论文生成或最终答案评测更接近科研工作流。

原始摘要与中文对照

中文对照翻译

ResearchClawBench评估涵盖10个科学领域的40项任务中的自主科学研究。每项任务都基于一篇真实的已发表论文，提供相关文献和原始数据，并在评估期间隐藏目标论文。专家策划的多模态评分标准将目标科学成果分解为加权标准，从而实现目标论文级别的再发现评估，同时为新发现留有空间。当前系统距离可靠的再发现仍有很大差距，最强的自主智能体平均得分仅为100分中的21.5分。

原始摘要

ResearchClawBench evaluates autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose target scientific artifacts into weighted criteria, enabling target-paper-level re-discovery evaluation while leaving room for new discovery. Current systems remain far from reliable re-discovery, with the strongest autonomous agent averaging 21.5 out of 100.

链接

论文链接论文链接代码代码代码

核心要点

原始摘要与中文对照

中文对照翻译

原始摘要

相关论文

链接