强化学习
突破级
暂无讲解视频
收录解读
DelTA 关注 RLVR 的核心机制问题:sequence-level verifiable reward 如何具体改变 token-level probability。论文把 policy-gradient update 解释为 token-gradient vectors 上的线性判别器。
标准 RLVR 中正负样本的 centroid 容易被格式 token 等高频共享模式支配,导致真正区分高低奖励回答的稀疏方向被稀释。
DelTA 估计 token coefficients 来强化 side-specific、判别性强的 token-gradient directions,并下调共享或弱判别方向,从而改变有效 RLVR 更新方向。
它值得正式收录,因为它不仅给出一个后训练技巧,还提供了 RLVR token credit assignment 的机制视角,对 reasoning RL、verifiable reward 和 post-training 诊断都有方法溢出。