强化学习 突破级 暂无讲解视频
发表时间
2026-04-16
arXiv
2604.14877

收录解读

问题与背景:静态 reasoning 中,RL 往往被认为只是提升采样效率而不扩展能力边界;但 tool-use agent 有多轮交互,单纯 pass@k 不能区分能力扩展和可靠性提升。

方法与新意:论文提出 PASS@(k,T),同时改变采样预算 k 和交互深度 T,观察 base/RL pass curve 是否在大 k 下收敛。结果显示 tool-use RL 在组合式信息获取任务上确实扩大能力边界。

收录意义:这篇为 agent RL 提供了重要评估语言:在静态任务和交互式任务中,RL 的作用可能不同。它能帮助后续判断 RL 是“让模型更稳”还是“让 agent 真会做新事”。

局限:结论依赖所选 tool-use tasks 和训练设置;能力边界扩张机制仍需要更多模型、工具环境和长期交互验证。

链接