科学发现旗舰工作
突破级
暂无讲解视频
收录解读
这篇工作的关键不是再证明 PRM 在数学里有用,而是把 process reward 真正推进到 agentic data analysis 这种动态环境。作者先明确指出通用 PRM 在这个场景里会错两种事:抓不到 silent errors,又会把必要的 exploration 误判成 grounding failure。
DataPRM 的方法外溢点也比较清楚:它不是被动判分,而是作为 active verifier 去探测中间执行状态;同时用 reflection-aware ternary reward 区分可纠正错误、探索行为和不可恢复错误。这个设计比把数学 PRM 生搬到科学代理上强得多。
它值得正式收录,因为这提供的是 scientific agent process supervision 的新接口。对数据分析型科学代理、test-time selection、Best-of-N 和 outcome-reward 之外的 RL 监督,都有明显方法价值。
它没有更高,是因为当前主证据仍集中在 data analysis / scientific discovery 代理上,尚未证明这套环境感知 PRM 会成为更广义 tool-using agent 的默认方案。