智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文关注 competitive programming 这一高难代码推理场景。单模型代码生成在复杂竞赛题中容易受限于思路提出、反例构造、测试生成、修补和长程验证之间的耦合,而普通 pass@k 或静态 SFT/RL 很难覆盖真实竞赛中的多阶段搜索过程。
GrandCode 将解题系统组织成多模块 agentic workflow,并引入 Agentic GRPO 来处理多阶段 agent rollout、延迟奖励和严重 off-policy drift。系统包含假设提出、solver、test generator、summarization 等 agent 模块,通过 post-training 与在线 test-time RL 联合改进,而不是只训练一个单次生成器。
它值得收录,因为它把 RLVR/GRPO 明确扩展到多阶段 agent 系统训练,并用 live Codeforces 竞赛作为高压评测场景。论文声称在连续三场 Codeforces live rounds 中排名第一,这使它成为 agentic RL 用于复杂代码推理和竞赛式搜索的高价值参考,不只是普通代码模型榜单。
它不是更高一级,因为结果仍需要更多第三方复核和可复现实验;competitive programming 也是相对特殊的可验证、强测试驱动环境,Agentic GRPO 是否能迁移到开放软件工程、科学研究或网页 agent 任务仍需后续验证。