智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-01
arXiv
2604.01128

收录解读

随着 coding agents 和 research agents 开始写完整论文,问题已经不再只是“能不能生成一篇看起来像论文的文本”,而是 presentation quality 和 hallucination risk 如何同时量化。当前对 AI-written papers 的担忧很多,但真正系统化、可复现的评估框架仍然很少。

论文提出 Paper Reconstruction Evaluation(PaperRecon):先从原论文生成 overview,再让 agent 只基于 overview 和极少额外资源重写完整论文,最后再与原论文进行比较。作者把评估拆成两个正交维度:Presentation 与 Hallucination,并引入 PaperWrite-Bench,包含 51 篇 2025 年后多领域 top-tier papers。实验显示 ClaudeCode 与 Codex 在写作表现与 hallucination 风险上存在清晰 trade-off,从而揭示 AI research writing 的具体失真模式。

这篇工作值得收录,因为它把 AI research automation 里的一个核心风险做成了正式 benchmark:不仅评生成质量,还评是否在科研写作中系统性胡编。对 agentic scientific writing、AI scientist safety 和研究工作流治理,这是一条很实用的评测基础设施。

它没有升到更高一级,是因为当前仍然是一个很聚焦的 evaluation layer,主要服务于 paper-writing agents,而不是整个 AI research automation 栈的统一评估体系。它很有价值,但范围仍偏具体。

链接