GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-03
arXiv: 2604.02721

收录解读

这篇论文关注 competitive programming 这一高难代码推理场景。单模型代码生成在复杂竞赛题中容易受限于思路提出、反例构造、测试生成、修补和长程验证之间的耦合，而普通 pass@k 或静态 SFT/RL 很难覆盖真实竞赛中的多阶段搜索过程。

GrandCode 将解题系统组织成多模块 agentic workflow，并引入 Agentic GRPO 来处理多阶段 agent rollout、延迟奖励和严重 off-policy drift。系统包含假设提出、solver、test generator、summarization 等 agent 模块，通过 post-training 与在线 test-time RL 联合改进，而不是只训练一个单次生成器。

它值得收录，因为它把 RLVR/GRPO 明确扩展到多阶段 agent 系统训练，并用 live Codeforces 竞赛作为高压评测场景。论文声称在连续三场 Codeforces live rounds 中排名第一，这使它成为 agentic RL 用于复杂代码推理和竞赛式搜索的高价值参考，不只是普通代码模型榜单。

它不是更高一级，因为结果仍需要更多第三方复核和可复现实验；competitive programming 也是相对特殊的可验证、强测试驱动环境，Agentic GRPO 是否能迁移到开放软件工程、科学研究或网页 agent 任务仍需后续验证。

链接

论文链接