推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-30
arXiv
2604.27644

收录解读

这篇论文的关键推进不是再做一个 verifier-RL 变体,而是把自改进的入口从‘学会回答’进一步推到‘学会提出可验证问题’。也就是说,模型不只消费既有题目,而是通过 Proposer-Solver 双角色自己扩展 curriculum。

ANCORA 真正有方法味道的地方在于它不是无约束 self-play。作者引入了 manifold projection、自蒸馏 SFT、UCB-guided Curriculum DAG 和严格的 solver-verified novelty filter,目的是让 proposer-solver 循环不至于塌成垃圾题目或奖励投机。

它值得正式收录,因为这提供了一种更耐用的 verifiable reasoning self-improvement primitive:用问题生成来放大可验证训练信号,而不是只在固定 benchmark 上做 answer-side RL。对 theorem-style reasoning、code reasoning 和 broader inference-time curriculum design 都有外溢。

它没有更高,是因为当前最强证据仍集中在 verifier-friendly reasoning domains,距离更广开放世界问题上的稳定自改进还有距离。

链接