收录解读
这篇论文针对的是一个很现实但长期被弱化的问题:部署后的 LLM agent 往往是静态的,用户需求和任务分布在变,系统却只能靠人工整理记忆、重启训练或停机更新来追赶。作者把这个问题放到 OpenClaw 这类多渠道、持续在线的 agent 平台上来讨论,强调核心矛盾不是单次任务求解,而是如何在不中断服务的前提下持续获得新能力。
MetaClaw 的关键设计是把持续演化拆成两条互补回路。第一条是 skill-driven fast adaptation:分析失败轨迹,由 LLM evolver 直接合成新技能,实现零停机的即时改进;第二条是 opportunistic policy optimization:在用户空闲窗口里,通过云端 LoRA 微调和 RL-PRM 做策略更新,并由 Opportunistic Meta-Learning Scheduler 结合系统空闲和日历信息来触发。作者还加入版本隔离机制,把 support 与 query 数据分开,避免持续学习时的数据污染。
这篇工作值得正式收录,因为它不是普通的 agent benchmark 提升,而是提出了一个更接近真实系统维护方式的 continual agent learning 框架:技能库演化与底座策略更新相互增强,且明确围绕在线服务约束来设计。对 agent memory、capability acquisition、长期部署与系统自我改进这几条主线都有明显外溢,也和仓库当前对 agent systems 的扩展方向一致。
它目前仍适合定为 breakthrough,而不是更高一级。原因是这套框架虽然完整,也给出了在 MetaClaw-Bench 和 AutoResearchClaw 上的显著提升,但证据仍主要来自作者自建系统和平台环境。它更像一篇高质量的 agent continual learning 系统论文,距离成为更广泛 agent infra 默认范式,还需要更多独立复现与跨平台验证。