DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation

智能体与自主科学突破级暂无讲解视频

收录解读

问题与背景：deep research agents 需要规划、检索、多模态理解和报告生成，但开放 web 环境动态变化，任务定义也常含糊，导致评测很难复现。

方法与新意：DR3-Eval 用真实用户材料构造任务，并为每个任务配套静态 research sandbox corpus，包含支持文档、干扰项和噪声。评估指标覆盖信息召回、事实准确、引用覆盖、指令遵循和深度质量。

收录意义：这篇提供了 deep research agent 的可复现评测接口，把动态网页搜索问题转为可验证的多文件沙箱，同时保留检索噪声与报告生成难度。它对研究型 agent 和企业 research workflow agent 都有长期价值。

局限：benchmark 的覆盖面和报告质量评估仍依赖任务设计与 judge 对齐；它是重要评测基础设施，但不是完整 agent 架构范式。