OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-17
arXiv: 2603.20278

收录解读

这篇论文处理的是 deep research agent 训练数据的可复现性瓶颈。高质量研究型 agent 需要长时程轨迹，轨迹里包含搜索、打开网页、定位证据、综合推理和多轮工具调用；但现有数据合成流程通常依赖商业搜索 API 和在线网页环境，成本高、状态不稳定，也难以复现和分析。

OpenResearcher 的核心贡献是把深度研究轨迹合成改造成完全离线、可仪表化的数据流水线。它先构建 1500 万文档语料库，再用 search/open/find 三个显式浏览器原语执行搜索-浏览闭环，并使用 GPT-OSS-120B 作为 teacher 合成 9.7 万条以上长时程轨迹，其中包含大量 100+ tool calls 的长尾样本。

它值得收录，因为它为 research agent 提供了一个从数据生成到受控分析的开放基础设施，而不是只报告一个 agent 分数。用这些轨迹 SFT 30B-A3B backbone 后，在 BrowseComp-Plus 上达到 54.8%，相对 base 模型提升 34.0 个点，同时在 BrowseComp、GAIA 和 xbench-DeepSearch 上保持竞争力；这对 agentic research workflow、离线评测环境和可复现轨迹合成都有直接复用价值。

它不是更高一级，因为当前能力仍主要来自 teacher 轨迹蒸馏和离线语料环境，离真实开放网页、动态网页状态、登录权限、反爬、跨源可信度校验还有距离；长时程轨迹质量也会受 teacher 模型和 corpus bootstrapping 的系统性偏差影响。

链接

论文链接