OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-16
arXiv: 2603.15594

收录解读

高性能 search agent 一直被少数工业实验室垄断，一个关键瓶颈不是模型结构，而是高质量训练数据不透明。这篇论文直接对准这个问题，试图把 frontier-level search agent 的训练入口从闭源系统手里拆出来。

作者提出 OpenSeeker，并把核心放在两块：一是 fact-grounded、controllable 的多跳问答合成，通过 web graph 的拓扑扩展和实体扰动构造高复杂度检索任务；二是 denoised trajectory synthesis，用 retrospective summarization 对教师轨迹去噪，提升动作质量。论文强调只用一次 SFT 和约 1.17 万条合成样本，就能把开源 search agent 拉到非常强的水平。

这篇论文的收录价值很明确：它不只是又做了一个 search agent，而是把“可训练的 frontier search 数据生成流程”开放出来。对 agent research 来说，这种数据与训练工作流的开放性具有很强的可复用价值，能实质推动开源 search agent 的可比性和创新速度。

它还不是更高一级，因为当前证据仍集中在 search 这一具体 agent 子方向，且主要依赖合成数据路线。是否能稳定外溢到更广的 tool-use agent、enterprise agent 或 scientific agent，还需要后续验证。

链接

论文链接