智能体与自主科学 突破级 有讲解视频
发表时间
2026-05-23
arXiv
2605.24426

收录解读

SEAL 提出 Agent-Environment Misalignment:agent 能力边界在训练中变化,但训练环境和监督信号常是静态或弱耦合的,导致 self-evolution 无法持续对准真实失败。

系统收集 executable verification 下的 on-policy trajectories,把失败 rollouts 诊断为 turn-level failure labels,并把同一诊断信号用于环境侧和模型侧。

环境侧调整 training-time learning interface,暴露更清晰的 tool affordance cues、constraint information 和 recovery-oriented feedback;模型侧用 diagnosis-guided advantage reweighting 优化策略。

它值得正式收录,因为它把 self-improving agents 从单独更新 policy 推进到 agent 与学习环境共同演化,是 agent 训练基础设施的重要模式。

解读视频

链接