推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
这篇论文的关键推进不是再做一个 verifier-RL 变体,而是把自改进的入口从‘学会回答’进一步推到‘学会提出可验证问题’。也就是说,模型不只消费既有题目,而是通过 Proposer-Solver 双角色自己扩展 curriculum。
ANCORA 真正有方法味道的地方在于它不是无约束 self-play。作者引入了 manifold projection、自蒸馏 SFT、UCB-guided Curriculum DAG 和严格的 solver-verified novelty filter,目的是让 proposer-solver 循环不至于塌成垃圾题目或奖励投机。
它值得正式收录,因为这提供了一种更耐用的 verifiable reasoning self-improvement primitive:用问题生成来放大可验证训练信号,而不是只在固定 benchmark 上做 answer-side RL。对 theorem-style reasoning、code reasoning 和 broader inference-time curriculum design 都有外溢。
它没有更高,是因为当前最强证据仍集中在 verifier-friendly reasoning domains,距离更广开放世界问题上的稳定自改进还有距离。