强化学习 突破级 暂无讲解视频
发表时间
2026-05-20
arXiv
2605.21467

收录解读

DelTA 关注 RLVR 的核心机制问题:sequence-level verifiable reward 如何具体改变 token-level probability。论文把 policy-gradient update 解释为 token-gradient vectors 上的线性判别器。

标准 RLVR 中正负样本的 centroid 容易被格式 token 等高频共享模式支配,导致真正区分高低奖励回答的稀疏方向被稀释。

DelTA 估计 token coefficients 来强化 side-specific、判别性强的 token-gradient directions,并下调共享或弱判别方向,从而改变有效 RLVR 更新方向。

它值得正式收录,因为它不仅给出一个后训练技巧,还提供了 RLVR token credit assignment 的机制视角,对 reasoning RL、verifiable reward 和 post-training 诊断都有方法溢出。

链接