智能体与自主科学
突破级
暂无讲解视频
收录解读
RubricEM 针对 deep research agent 的难点:长报告、证据搜索和综合任务通常没有可验证答案,因此标准 RLVR 很难直接给密集、可靠奖励。
它把 rubric 从最终评分工具提升为执行接口:规划、证据收集、审阅和综合各阶段都由 rubric 组织,并用 stage-structured GRPO 和 reflection meta-policy 把经验转成可复用指导。
它值得正式收录,因为它提供了 beyond-verifiable-reward 的 agent RL 训练框架,把评估、执行分解和记忆更新接成一个工作流。
它没有更高,是因为 long-form research 评测仍容易受 judge 偏差、数据泄漏和报告风格影响,需要更多独立复现。