收录解读
这篇论文针对一个越来越重要但经常被低估的问题:很多 agent 和知识密集型 LLM 系统的真实能力并不主要取决于权重更新,而取决于 context adaptation,也就是系统 prompt、外部记忆、策略说明和证据组织方式如何随着运行逐步演化。作者指出现有方法在这条路线上常见两个问题:一是 brevity bias,会把详细经验压缩成过于简短的抽象提示;二是 context collapse,反复重写上下文后细节不断流失,最终把真正有用的知识擦掉。
ACE(Agentic Context Engineering)的核心贡献是把 context 明确建模成持续演化的 playbook,而不是一次性 prompt。它在 Dynamic Cheatsheet 的 adaptive memory 基础上,引入 Generator、Reflector、Curator 三角色分工,并用增量 delta updates 替代整段重写,让系统能在 offline 场景下优化 system prompts,也能在 online 场景下把 agent memory 作为可生长、可整理、可反思的上下文资产持续改进。更关键的是,这套更新不依赖标注监督,而是直接利用执行反馈和环境信号完成自我改进。
这项工作值得正式收录,因为它不再只是 prompt engineering 经验总结,而是把 context adaptation 提升成一种独立的 self-improving systems paradigm。论文在 agents 和 domain-specific benchmarks 上都给出稳定收益,在 AppWorld 上还能以更小的开源模型匹配甚至超过生产级系统的一部分结果,同时显著降低 adaptation latency 和 rollout cost。对仓库主线而言,它直接命中 agent memory、deployment-time improvement 和 capability acquisition 三个方向,并且给出了一种很清晰的可复用 workflow。
它暂时还不到更高一级,原因在于证据仍主要集中在 AppWorld 和金融类 benchmark,以及与 prompt/context baselines 的对比,距离真正重排更广 agent infra 生态还有一步。它已经证明了 evolving contexts 是一条强路线,但是否会成为长期默认范式,还要看更多跨任务、跨企业场景和更长时运行验证。