ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-30
arXiv: 2604.27644

收录解读

这篇论文的关键推进不是再做一个 verifier-RL 变体，而是把自改进的入口从‘学会回答’进一步推到‘学会提出可验证问题’。也就是说，模型不只消费既有题目，而是通过 Proposer-Solver 双角色自己扩展 curriculum。

ANCORA 真正有方法味道的地方在于它不是无约束 self-play。作者引入了 manifold projection、自蒸馏 SFT、UCB-guided Curriculum DAG 和严格的 solver-verified novelty filter，目的是让 proposer-solver 循环不至于塌成垃圾题目或奖励投机。

它值得正式收录，因为这提供了一种更耐用的 verifiable reasoning self-improvement primitive：用问题生成来放大可验证训练信号，而不是只在固定 benchmark 上做 answer-side RL。对 theorem-style reasoning、code reasoning 和 broader inference-time curriculum design 都有外溢。

它没有更高，是因为当前最强证据仍集中在 verifier-friendly reasoning domains，距离更广开放世界问题上的稳定自改进还有距离。

链接

论文链接