Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.01128

收录解读

随着 coding agents 和 research agents 开始写完整论文，问题已经不再只是“能不能生成一篇看起来像论文的文本”，而是 presentation quality 和 hallucination risk 如何同时量化。当前对 AI-written papers 的担忧很多，但真正系统化、可复现的评估框架仍然很少。

论文提出 Paper Reconstruction Evaluation（PaperRecon）：先从原论文生成 overview，再让 agent 只基于 overview 和极少额外资源重写完整论文，最后再与原论文进行比较。作者把评估拆成两个正交维度：Presentation 与 Hallucination，并引入 PaperWrite-Bench，包含 51 篇 2025 年后多领域 top-tier papers。实验显示 ClaudeCode 与 Codex 在写作表现与 hallucination 风险上存在清晰 trade-off，从而揭示 AI research writing 的具体失真模式。

这篇工作值得收录，因为它把 AI research automation 里的一个核心风险做成了正式 benchmark：不仅评生成质量，还评是否在科研写作中系统性胡编。对 agentic scientific writing、AI scientist safety 和研究工作流治理，这是一条很实用的评测基础设施。

它没有升到更高一级，是因为当前仍然是一个很聚焦的 evaluation layer，主要服务于 paper-writing agents，而不是整个 AI research automation 栈的统一评估体系。它很有价值，但范围仍偏具体。

链接

论文链接