强化学习
突破级
暂无讲解视频
收录解读
问题与背景:PPO/GRPO 一类 policy-gradient 方法把“应该提高哪些 completion 的概率”和“参数如何移动”耦合在同一个梯度更新里,容易受学习率、clip 和优化器细节影响,尤其在 sparse reward 下不稳定。
方法与新意:TPO 先由旧策略概率和 reward 构造目标分布,再用 cross-entropy 拟合当前策略,使 sampled-completion logits 上的梯度变成 pθ - q。它把策略改进目标显式化,减少过冲或欠冲。
收录意义:这篇是 RLVR/post-training 方向的可复用优化 primitive。它提供的不是新 benchmark,而是更清楚的策略更新分解,对高方差 sparse reward、组内采样和 reasoning RL 训练有直接方法价值。
局限:是否能在更大模型、更复杂 reward pipeline 和长周期训练中稳定优于强 PPO/GRPO 实现,还需要更多开源复现和系统级消融。