Beyond Magnitude: Leveraging Direction of RLVR Updates

理论、鲁棒性与核心机器学习突破级暂无讲解视频

发表时间: 2026-01-26

收录解读

围绕 RLVR 是否真的提升推理能力，很多讨论只看性能曲线或更新幅度，却很少真正分析更新里什么成分在起作用。这篇工作把注意力从 update magnitude 转向 update direction，试图解释 RLVR 到底向模型里注入了什么有效结构。

论文的核心判断是：更新方向比更新大小更能揭示 RLVR 的有效知识增量，并据此提出 test-time extrapolation 与 training-time reweighting 之类的利用方式，把这种方向性信号转化为更稳的优化与泛化收益。它因此不只是分析论文，而是在训练和推理层都给出可操作干预。

它对仓库的意义在于，这类工作正好位于 reasoning、RL post-training 和 model-update geometry 的交叉点。相比只报分数，它更接近解释 RLVR 机制并提炼 reusable signal，这类澄清对后续 reasoning 训练路线有实际影响。

它目前仍不到更高一级，因为证据主要集中在 RLVR 这一特定训练范式和一组实验设置里；它像一篇很强的机制澄清与实用修正论文，但还没扩散成更广泛的训练理论基石。

链接

论文链接