核心要点
- 问题/背景
- ResearchClawBench 把自动科研 agent 的评估从玩具任务推进到 end-to-end scientific re-discovery:给文献和原始数据,隐藏目标论文,要求 agent 复现科学产物。
- 方法/机制
- 基准包含 10 个科学领域的 40 个真实论文任务,并用专家设计的多模态 rubric 分解目标产物,既能评价复现,也允许新的发现路径。
- 结果/证据
- 结果显示当前最强 autonomous research agent 也只有约 21.5/100,失败集中在实验协议不匹配、证据不匹配和缺失科学核心。
- 收录价值
- 它值得收录,因为它提供了衡量 AI 科学家真实进展的可复用评估前沿,比单纯论文生成或最终答案评测更接近科研工作流。
原始摘要与中文对照
中文对照翻译
ResearchClawBench评估涵盖10个科学领域的40项任务中的自主科学研究。每项任务都基于一篇真实的已发表论文,提供相关文献和原始数据,并在评估期间隐藏目标论文。专家策划的多模态评分标准将目标科学成果分解为加权标准,从而实现目标论文级别的再发现评估,同时为新发现留有空间。当前系统距离可靠的再发现仍有很大差距,最强的自主智能体平均得分仅为100分中的21.5分。
原始摘要
ResearchClawBench evaluates autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose target scientific artifacts into weighted criteria, enabling target-paper-level re-discovery evaluation while leaving room for new discovery. Current systems remain far from reliable re-discovery, with the strongest autonomous agent averaging 21.5 out of 100.