强化学习 突破级 暂无讲解视频
发表时间
2025-10-23
arXiv
2510.20685

收录解读

open-world embodied navigation 的真实难点不只是能否在固定类别集合上学会目标导航,而是环境、对象类别和任务分布都在持续变化。现有 object navigation 方法大多假设训练类别固定、轨迹静态,这与机器人长期部署时不断遇到新类别并同时保留旧能力的需求并不一致。

C-NAV 直接把这个问题重写成 continual object navigation。论文一方面提出 continual benchmark,要求 embodied agent 在开放环境中不断获得新 object categories 的导航能力,同时避免灾难性遗忘;另一方面提出对应的 continual visual navigation framework,包括 dual-path anti-forgetting mechanism:用 feature distillation 保持多模态表征一致性,用 feature replay 在 action decoder 中保留时序特征以维持 policy consistency,并辅以 adaptive sampling 降低记忆负担。

这篇工作值得收录,因为它把 object navigation 从静态 benchmark 推进到更接近真实部署的 continual setting,并给出了 benchmark + anti-forgetting mechanism 的完整组合。对 embodied lifelong learning、长期部署机器人和 open-world navigation,这是一种更耐久的问题定义和方法模式,而不只是又一个导航分数提升。

它没有升到更高一级,是因为当前影响范围仍主要集中在 continual object navigation 这条子线。虽然 framing 很好、方法也完整,但还没有证明它会改写更广的 embodied learning 主流范式,因此目前更适合放在 breakthrough。

链接