智能体与自主科学
突破级
有讲解视频
收录解读
SEAL 提出 Agent-Environment Misalignment:agent 能力边界在训练中变化,但训练环境和监督信号常是静态或弱耦合的,导致 self-evolution 无法持续对准真实失败。
系统收集 executable verification 下的 on-policy trajectories,把失败 rollouts 诊断为 turn-level failure labels,并把同一诊断信号用于环境侧和模型侧。
环境侧调整 training-time learning interface,暴露更清晰的 tool affordance cues、constraint information 和 recovery-oriented feedback;模型侧用 diagnosis-guided advantage reweighting 优化策略。
它值得正式收录,因为它把 self-improving agents 从单独更新 policy 推进到 agent 与学习环境共同演化,是 agent 训练基础设施的重要模式。