推理、记忆与推理时控制
突破级
有讲解视频
收录解读
很多 test-time self-evolution 工作默认假设模型天然会根据反馈改写自身上下文,但实际上大多数方法只是把更强模型或更复杂搜索包在外层,并没有显式训练“如何根据反馈进化上下文”这项能力。
这篇工作的核心推进,是把 self-evolution 本身重写成可学习的 RL 目标:每次上下文编辑都按下游性能改善来奖励,并配合 tree-guided evolution loop,让模型直接学会怎样在测试时持续重写自己的上下文,而不是只依赖底座模型的静态推理能力。
它值得正式收录,因为它把 test-time adaptation 从“外部 prompt 优化技巧”推进成“可训练技能”。这对 deployment-time learning、context editing、small-model self-improvement 和 agentic adaptation 都有明显方法外溢,尤其契合本仓库对 test-time learning / self-improving agents 的主线。
它暂时不升到更高一级,原因在于当前验证仍集中在 Text-to-SQL 和 general QA 等少数任务,长期稳定性、跨模态泛化和更复杂 agent workflows 上的耐久价值还需要进一步证明。