Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

强化学习突破级暂无讲解视频

收录解读

这篇论文的价值在于把当前热门的 group-based RLVR 从经验 recipe 拉回到更清晰的优化对象。它把问题表述为 response simplex 上的 target projection。

这种解释对 RL post-training 很重要，因为 GRPO/RLVR 类方法正在快速扩散，但社区对它们究竟在优化什么、为什么稳定或不稳定仍不够清楚。

它值得正式收录，因为它提供了一个可能复用的理论化接口，有助于把 reasoning RL 从技巧集合推进到可分析的优化框架。

它没有更高，是因为理论解释需要和更大规模模型、更复杂 reward、真实推理任务上的收益对齐。