推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-10
arXiv
2604.09482

收录解读

这篇论文处理知识密集型推理中的一个关键缺口:数学和代码任务的中间步骤常可局部验证,但医学等知识密集领域的推理步骤往往需要跨外部知识源综合判断,错误会沿推理链传播而不被发现。传统 process reward model 多是在轨迹完成后打分,难以进入动态推理搜索。

作者提出 Process Reward Agents(PRA),把领域知识检索、步骤级判断和奖励信号组合成测试时在线模块,为冻结的 policy model 提供 domain-grounded、step-wise reward。它不是训练新 reasoner,而是在生成过程中对候选轨迹持续排名和剪枝,使搜索式解码能在每一步利用外部知识反馈。

它值得收录,是因为它把 process reward 从离线评分器推进为可插入推理过程的 agentic reward module,形成“冻结通用推理器 + 领域奖励代理”的可复用部署模式。论文在多个医学推理基准上显示该方法可迁移到 0.5B 到 8B 的不同冻结模型,并在不更新 policy 的情况下显著提升准确率。

局限在于实验主要集中在医学知识推理,PRA 的检索源、奖励代理质量和搜索成本会影响可迁移性;更开放的多跳科学推理和普通长文档任务还需要验证。因此它是 test-time knowledge-intensive reasoning 的突破性方法,而不是通用推理范式。

链接