PRBench: End-to-end Paper Reproduction in Physics Research

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-29
arXiv: 2603.27646

收录解读

这篇论文针对一个此前没有被严格回答的问题：现有大模型 agent 虽然在代码、推理和局部科研任务上表现不错，但它们是否真的能从真实科学论文出发，独立完成端到端的复现实验流程。作者将这个问题具体化为 physics reproduction，并构建了一个由真实已发表论文反推而来的 benchmark，以避免科研 agent 评测长期停留在拆碎任务或合成任务层面。

方法上的核心贡献是 PRBench 本身。它包含 30 个由物理学领域专家策划的任务，覆盖 11 个 physics 子方向，要求 agent 只基于论文内容与任务指令，在沙箱环境里从零实现算法并产出与原论文一致的定量结果。数据、评分 rubric、ground truth 与 agentified assessment pipeline 一起构成了一套可复用的评测接口，使 scientific-agent 的能力第一次能在真实论文复现链条上被系统比较。

对本仓库而言，它的价值不只是一个 physics benchmark，而是为 agent-driven scientific workflow 提供了更可信的评测基座。和单点代码任务、单轮问答或 narrow domain benchmark 相比，PRBench 更接近真实科研中的长链路工作形态，因此对 AI for science、autonomous research agent、research evaluation 这几条主线都有明显外溢价值。

这篇论文目前仍主要建立在 physics reproduction 场景上，跨学科覆盖面还有限。它更像是科学复现 agent 评测的强基准和起点，而不是已经被广泛接受的跨学科默认标准，所以在本仓库中定为 breakthrough，而不再上调。

解读视频

B 站 YouTube

链接

论文链接