智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-17
arXiv
2603.20278

收录解读

这篇论文处理的是 deep research agent 训练数据的可复现性瓶颈。高质量研究型 agent 需要长时程轨迹,轨迹里包含搜索、打开网页、定位证据、综合推理和多轮工具调用;但现有数据合成流程通常依赖商业搜索 API 和在线网页环境,成本高、状态不稳定,也难以复现和分析。

OpenResearcher 的核心贡献是把深度研究轨迹合成改造成完全离线、可仪表化的数据流水线。它先构建 1500 万文档语料库,再用 search/open/find 三个显式浏览器原语执行搜索-浏览闭环,并使用 GPT-OSS-120B 作为 teacher 合成 9.7 万条以上长时程轨迹,其中包含大量 100+ tool calls 的长尾样本。

它值得收录,因为它为 research agent 提供了一个从数据生成到受控分析的开放基础设施,而不是只报告一个 agent 分数。用这些轨迹 SFT 30B-A3B backbone 后,在 BrowseComp-Plus 上达到 54.8%,相对 base 模型提升 34.0 个点,同时在 BrowseComp、GAIA 和 xbench-DeepSearch 上保持竞争力;这对 agentic research workflow、离线评测环境和可复现轨迹合成都有直接复用价值。

它不是更高一级,因为当前能力仍主要来自 teacher 轨迹蒸馏和离线语料环境,离真实开放网页、动态网页状态、登录权限、反爬、跨源可信度校验还有距离;长时程轨迹质量也会受 teacher 模型和 corpus bootstrapping 的系统性偏差影响。

链接