Synthesizing scientific literature with retrieval-augmented language models

科学发现旗舰工作突破级暂无讲解视频

发表时间: 2026-02-04
DOI: 10.1038/s41586-025-10072-4

收录解读

OpenScholar 针对科研文献综合的核心瓶颈：普通 LLM 在科学引用、覆盖率和最新文献上容易幻觉，而传统检索工具又难以生成可审查的长文献综述。论文把科学文献综合明确做成 retrieval-augmented scientific LM，而不是通用聊天模型的附加功能。

方法上，它构建了开放的 OpenScholar DataStore，覆盖约 4500 万篇开放论文和大规模 passage embedding，并结合专门训练的 retriever/reranker、8B 生成模型、引用验证和 self-feedback inference loop。论文还提出 ScholarQABench，用多领域专家问题和长答案评估科学文献检索与综合。

它值得正式收录，因为这是 AI-for-science workflow infrastructure 的代表性成果：论文检索、证据归因、长文献综合和评测接口被组织成可复用系统。对自动科研 agent、scientific discovery agents、deep research 系统和科研知识工作流都有直接外溢价值。

它没有升到更高一级，是因为它仍主要解决文献综合和证据归因，不等同于自动提出理论、设计实验或闭环发现。长期影响还取决于数据覆盖、更新机制、领域偏差、引用验证可靠性以及开放组件被社区复用的程度。

链接

论文链接项目代码