智能体与自主科学
突破级
有讲解视频
收录解读
问题与背景:开放世界机器人系统在遇到新物体和新操作时,传统 symbolic planner 会因为规划域里缺少对应 operator 而直接失效。
方法/新意:这篇工作把 symbolic planning、LLM 常识推理和 RL operator learning 串成统一框架:LLM 负责识别缺失 operator、生成计划并写 reward,RL 负责把新 operator 变成可执行控制策略。
意义/放在仓库中的位置:它属于 neuro-symbolic agent / novelty adaptation / embodied planning 主线,价值在于把“发现缺失操作符”与“学会新操作”真正打通。
局限/为何不再升一级:目前证据主要集中在连续控制场景中的 novelty adaptation,影响范围还不够广。