智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-22
arXiv
2605.24218

收录解读

QUEST 面向 deep research agents 的训练问题:前沿系统多为闭源,开放系统在不同搜索、事实核查、引用和报告任务间泛化不足。

论文发布 2B 到 35B 的 open deep research agents,并提出结合 mid-training、supervised fine-tuning 和 reinforcement learning 的训练 recipe。

核心是基于 unified rubric trees 的合成任务管线,在无人工标注下生成可验证奖励的多任务训练数据,并加入内置 context management 以支持长程搜索和知识综合。

它值得正式收录,因为它把 deep research agent 训练做成开源模型、数据、训练脚本和评测流程,连接了 synthetic task generation、verifiable rewards 和长程 research workflow。

链接