SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-10
arXiv: 2604.08865

收录解读

SPPO 针对长链推理 RL 中 token-level PPO 的两个痛点：跨 CoT horizon 的 temporal credit assignment 不稳定，以及 value model 带来的显存成本。GRPO 等 critic-free 方法缓解部分问题，但需要多样本 baseline，吞吐受限。

论文把推理过程重构为 sequence-level contextual bandit，用解耦的标量 value function 生成低方差 advantage，避免逐 token value 模型和多 rollout baseline 的高成本。目标是在 PPO 的样本效率和 outcome-level 更新稳定性之间折中。

它值得收录，是因为它给长时程 reasoning RL 提供了 sequence-level 训练接口，有望成为 GRPO/PPO 之间的实用替代。对大模型数学、代码和复杂推理 post-training 有直接系统价值。

局限在于 sequence-level abstraction 可能牺牲部分细粒度 credit 信号；在开放式工具任务和多步 agent 环境中还需要验证。

链接

论文链接