强化学习 突破级 暂无讲解视频
发表时间
2026-05-15
arXiv
2605.15726

收录解读

NudgeRL 处理 RLVR 的核心瓶颈:模型只能从已经采样到的轨迹中学习,简单增加 rollout 数量成本高且探索方向不可控。

它用 Strategy Nudging 给每次 rollout 加入轻量策略上下文,引导多样化推理轨迹;再用统一目标分解 inter-context 和 intra-context reward,并把发现的行为蒸馏回 base policy。

它值得正式收录,因为 reasoning RL 的下一步不是只堆 rollout,而是让探索变得结构化、可控、可迁移。

它没有更高,是因为策略上下文设计、不同任务族的泛化和大模型训练稳定性还需要更多验证。

链接