智能体与自主科学
突破级
暂无讲解视频
收录解读
问题与背景:deep research agents 需要规划、检索、多模态理解和报告生成,但开放 web 环境动态变化,任务定义也常含糊,导致评测很难复现。
方法与新意:DR3-Eval 用真实用户材料构造任务,并为每个任务配套静态 research sandbox corpus,包含支持文档、干扰项和噪声。评估指标覆盖信息召回、事实准确、引用覆盖、指令遵循和深度质量。
收录意义:这篇提供了 deep research agent 的可复现评测接口,把动态网页搜索问题转为可验证的多文件沙箱,同时保留检索噪声与报告生成难度。它对研究型 agent 和企业 research workflow agent 都有长期价值。
局限:benchmark 的覆盖面和报告质量评估仍依赖任务设计与 judge 对齐;它是重要评测基础设施,但不是完整 agent 架构范式。