收录解读
- 分级:`突破性` - 正式标题:`FRONTIERSCIENCE: Evaluating AI's Ability to Perform Scientific Research Tasks` - 原文:`2026-01-29-A1_FrontierScience-FRONTIERSCIENCE_Evaluating_AI_s_Ability_to_Perform_Scientific_Research_Tasks.pdf` - 抽取:`extracted.md`
## 重写摘要
这篇工作的核心贡献不是提出一个更强模型,而是提出一个更像“真实科学工作”的评测框架。FrontierScience 分成两条轨道:`Olympiad` 聚焦高难度短程科学推理,`Research` 聚焦更接近博士级科研子任务的开放式推理,并在后者中引入细粒度 rubric,对检索、分解、推理与论证过程进行评分,而不是只看最终答案。
论文最有价值的地方在于,它显式回避了传统科学 benchmark 的两个老问题:一是题目过于接近已公开知识,二是分数主要反映“会不会答题”,而不反映“会不会做研究”。作者报告 GPT-5.2 在 Olympiad 轨道上达到 77%,在 Research 轨道上达到 25%,说明当前前沿模型在研究型任务上仍明显落后于其在竞赛式题目上的表现。
## 为什么重要
它很可能成为后续“科研代理”路线的北极星评测。只要社区逐渐接受这种评测方式,模型训练目标就会从“答得像”转向“研究过程是否可检验、可拆解、可追责”。
## 局限
最大限制仍然是专家命题和 rubric 标注的高成本。Research 轨道的可重复判分、一致性和长期扩展能力,仍需要时间验证。