Target Policy Optimization

强化学习突破级暂无讲解视频

收录解读

问题与背景：PPO/GRPO 一类 policy-gradient 方法把“应该提高哪些 completion 的概率”和“参数如何移动”耦合在同一个梯度更新里，容易受学习率、clip 和优化器细节影响，尤其在 sparse reward 下不稳定。

方法与新意：TPO 先由旧策略概率和 reward 构造目标分布，再用 cross-entropy 拟合当前策略，使 sampled-completion logits 上的梯度变成 pθ - q。它把策略改进目标显式化，减少过冲或欠冲。

收录意义：这篇是 RLVR/post-training 方向的可复用优化 primitive。它提供的不是新 benchmark，而是更清楚的策略更新分解，对高方差 sparse reward、组内采样和 reasoning RL 训练有直接方法价值。

局限：是否能在更大模型、更复杂 reward pipeline 和长周期训练中稳定优于强 PPO/GRPO 实现，还需要更多开源复现和系统级消融。