SEAL: Synergistic Co-Evolution of Agents and Learning Environments

智能体与自主科学突破级有讲解视频

发表时间: 2026-05-23
arXiv: 2605.24426

收录解读

SEAL 提出 Agent-Environment Misalignment：agent 能力边界在训练中变化，但训练环境和监督信号常是静态或弱耦合的，导致 self-evolution 无法持续对准真实失败。

系统收集 executable verification 下的 on-policy trajectories，把失败 rollouts 诊断为 turn-level failure labels，并把同一诊断信号用于环境侧和模型侧。

环境侧调整 training-time learning interface，暴露更清晰的 tool affordance cues、constraint information 和 recovery-oriented feedback；模型侧用 diagnosis-guided advantage reweighting 优化策略。

它值得正式收录，因为它把 self-improving agents 从单独更新 policy 推进到 agent 与学习环境共同演化，是 agent 训练基础设施的重要模式。

解读视频

B 站 YouTube

链接

论文链接项目代码代码