智能体与自主科学 突破级 有讲解视频
发表时间
2026-03-11
arXiv
2603.11351

收录解读

问题与背景:开放世界机器人系统在遇到新物体和新操作时,传统 symbolic planner 会因为规划域里缺少对应 operator 而直接失效。

方法/新意:这篇工作把 symbolic planning、LLM 常识推理和 RL operator learning 串成统一框架:LLM 负责识别缺失 operator、生成计划并写 reward,RL 负责把新 operator 变成可执行控制策略。

意义/放在仓库中的位置:它属于 neuro-symbolic agent / novelty adaptation / embodied planning 主线,价值在于把“发现缺失操作符”与“学会新操作”真正打通。

局限/为何不再升一级:目前证据主要集中在连续控制场景中的 novelty adaptation,影响范围还不够广。

解读视频

链接