MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-17
arXiv: 2603.17187

收录解读

这篇论文针对的是一个很现实但长期被弱化的问题：部署后的 LLM agent 往往是静态的，用户需求和任务分布在变，系统却只能靠人工整理记忆、重启训练或停机更新来追赶。作者把这个问题放到 OpenClaw 这类多渠道、持续在线的 agent 平台上来讨论，强调核心矛盾不是单次任务求解，而是如何在不中断服务的前提下持续获得新能力。

MetaClaw 的关键设计是把持续演化拆成两条互补回路。第一条是 skill-driven fast adaptation：分析失败轨迹，由 LLM evolver 直接合成新技能，实现零停机的即时改进；第二条是 opportunistic policy optimization：在用户空闲窗口里，通过云端 LoRA 微调和 RL-PRM 做策略更新，并由 Opportunistic Meta-Learning Scheduler 结合系统空闲和日历信息来触发。作者还加入版本隔离机制，把 support 与 query 数据分开，避免持续学习时的数据污染。

这篇工作值得正式收录，因为它不是普通的 agent benchmark 提升，而是提出了一个更接近真实系统维护方式的 continual agent learning 框架：技能库演化与底座策略更新相互增强，且明确围绕在线服务约束来设计。对 agent memory、capability acquisition、长期部署与系统自我改进这几条主线都有明显外溢，也和仓库当前对 agent systems 的扩展方向一致。

它目前仍适合定为 breakthrough，而不是更高一级。原因是这套框架虽然完整，也给出了在 MetaClaw-Bench 和 AutoResearchClaw 上的显著提升，但证据仍主要来自作者自建系统和平台环境。它更像一篇高质量的 agent continual learning 系统论文，距离成为更广泛 agent infra 默认范式，还需要更多独立复现与跨平台验证。

解读视频

B 站 YouTube

链接

论文链接