DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

强化学习突破级暂无讲解视频

收录解读

DelTA 关注 RLVR 的核心机制问题：sequence-level verifiable reward 如何具体改变 token-level probability。论文把 policy-gradient update 解释为 token-gradient vectors 上的线性判别器。

标准 RLVR 中正负样本的 centroid 容易被格式 token 等高频共享模式支配，导致真正区分高低奖励回答的稀疏方向被稀释。

DelTA 估计 token coefficients 来强化 side-specific、判别性强的 token-gradient directions，并下调共享或弱判别方向，从而改变有效 RLVR 更新方向。

它值得正式收录，因为它不仅给出一个后训练技巧，还提供了 RLVR token credit assignment 的机制视角，对 reasoning RL、verifiable reward 和 post-training 诊断都有方法溢出。