QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

智能体与自主科学突破级暂无讲解视频

收录解读

QUEST 面向 deep research agents 的训练问题：前沿系统多为闭源，开放系统在不同搜索、事实核查、引用和报告任务间泛化不足。

论文发布 2B 到 35B 的 open deep research agents，并提出结合 mid-training、supervised fine-tuning 和 reinforcement learning 的训练 recipe。

核心是基于 unified rubric trees 的合成任务管线，在无人工标注下生成可验证奖励的多任务训练数据，并加入内置 context management 以支持长程搜索和知识综合。

它值得正式收录，因为它把 deep research agent 训练做成开源模型、数据、训练脚本和评测流程，连接了 synthetic task generation、verifiable rewards 和长程 research workflow。