强化学习
突破级
暂无讲解视频
收录解读
这篇 ICCV 2025 论文把第一视角视频和具身传感器转化为可持续更新的场景记忆,用于动态场景理解。它针对的是 embodied agent 在真实环境中持续观察、记住和理解变化的能力。
它的系统价值在于 persistent memory:agent 不应把每段视频当孤立输入,而需要维护跨时间的场景状态、物体位置、事件变化和传感线索。这与长期机器人导航、辅助操作和现场问答直接相关。
按本库标准,它位于机器人/agent memory 的交叉点,贡献不只是视觉识别,而是具身记忆架构和动态场景理解流程,因此正式收录。
局限是记忆可靠性、误差累积、传感器缺失和开放世界更新仍是难点;它还不是完整自主机器人操作系统。