Does RL Expand the Capability Boundary of LLM Agents? A PASS@(k,T) Analysis

强化学习突破级暂无讲解视频

收录解读

问题与背景：静态 reasoning 中，RL 往往被认为只是提升采样效率而不扩展能力边界；但 tool-use agent 有多轮交互，单纯 pass@k 不能区分能力扩展和可靠性提升。

方法与新意：论文提出 PASS@(k,T)，同时改变采样预算 k 和交互深度 T，观察 base/RL pass curve 是否在大 k 下收敛。结果显示 tool-use RL 在组合式信息获取任务上确实扩大能力边界。

收录意义：这篇为 agent RL 提供了重要评估语言：在静态任务和交互式任务中，RL 的作用可能不同。它能帮助后续判断 RL 是“让模型更稳”还是“让 agent 真会做新事”。

局限：结论依赖所选 tool-use tasks 和训练设置；能力边界扩张机制仍需要更多模型、工具环境和长期交互验证。