推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
SPPO 针对长链推理 RL 中 token-level PPO 的两个痛点:跨 CoT horizon 的 temporal credit assignment 不稳定,以及 value model 带来的显存成本。GRPO 等 critic-free 方法缓解部分问题,但需要多样本 baseline,吞吐受限。
论文把推理过程重构为 sequence-level contextual bandit,用解耦的标量 value function 生成低方差 advantage,避免逐 token value 模型和多 rollout baseline 的高成本。目标是在 PPO 的样本效率和 outcome-level 更新稳定性之间折中。
它值得收录,是因为它给长时程 reasoning RL 提供了 sequence-level 训练接口,有望成为 GRPO/PPO 之间的实用替代。对大模型数学、代码和复杂推理 post-training 有直接系统价值。
局限在于 sequence-level abstraction 可能牺牲部分细粒度 credit 信号;在开放式工具任务和多步 agent 环境中还需要验证。