Learning to Self-Evolve

推理、记忆与推理时控制突破级有讲解视频

发表时间: 2026-03-19
arXiv: 2603.18620

收录解读

很多 test-time self-evolution 工作默认假设模型天然会根据反馈改写自身上下文，但实际上大多数方法只是把更强模型或更复杂搜索包在外层，并没有显式训练“如何根据反馈进化上下文”这项能力。

这篇工作的核心推进，是把 self-evolution 本身重写成可学习的 RL 目标：每次上下文编辑都按下游性能改善来奖励，并配合 tree-guided evolution loop，让模型直接学会怎样在测试时持续重写自己的上下文，而不是只依赖底座模型的静态推理能力。

它值得正式收录，因为它把 test-time adaptation 从“外部 prompt 优化技巧”推进成“可训练技能”。这对 deployment-time learning、context editing、small-model self-improvement 和 agentic adaptation 都有明显方法外溢，尤其契合本仓库对 test-time learning / self-improving agents 的主线。

它暂时不升到更高一级，原因在于当前验证仍集中在 Text-to-SQL 和 general QA 等少数任务，长期稳定性、跨模态泛化和更复杂 agent workflows 上的耐久价值还需要进一步证明。

解读视频

B 站 YouTube

链接

论文链接