理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
收录解读
围绕 RLVR 是否真的提升推理能力,很多讨论只看性能曲线或更新幅度,却很少真正分析更新里什么成分在起作用。这篇工作把注意力从 update magnitude 转向 update direction,试图解释 RLVR 到底向模型里注入了什么有效结构。
论文的核心判断是:更新方向比更新大小更能揭示 RLVR 的有效知识增量,并据此提出 test-time extrapolation 与 training-time reweighting 之类的利用方式,把这种方向性信号转化为更稳的优化与泛化收益。它因此不只是分析论文,而是在训练和推理层都给出可操作干预。
它对仓库的意义在于,这类工作正好位于 reasoning、RL post-training 和 model-update geometry 的交叉点。相比只报分数,它更接近解释 RLVR 机制并提炼 reusable signal,这类澄清对后续 reasoning 训练路线有实际影响。
它目前仍不到更高一级,因为证据主要集中在 RLVR 这一特定训练范式和一组实验设置里;它像一篇很强的机制澄清与实用修正论文,但还没扩散成更广泛的训练理论基石。