强化学习 突破级 暂无讲解视频
发表时间
2026-04-29

核心要点

问题/背景
这篇 Science Robotics 论文提出 RAM,用 retrieval-augmented object-centric 3D 表征补足 VLM 在机器人操作中的空间推理缺口。问题在于 VLM 能理解高层语言,但缺少精确放置、朝向、碰撞和物理约束所需的几何智能。
方法/机制
RAM 将抽象概念 grounding 到显式 3D object-centric representation,再把该结构化信息作为增强上下文提供给 VLM,使其能把复杂语言指令分解为空间精确、物理可行的子目标序列。
结果/证据
论文在真实机器人零样本设置中展示复杂空间语言指令执行、单张 2D 图像指导下的空间操作,以及基于物体尺寸和碰撞约束的自适应重规划。
收录价值
收录价值在于它提供了 VLM 与几何执行之间的可复用桥接模式,是 VLA/robot foundation model 落地操作任务时需要的关键系统接口。

收录解读

这篇 Science Robotics 论文提出 RAM,用 retrieval-augmented object-centric 3D 表征补足 VLM 在机器人操作中的空间推理缺口。问题在于 VLM 能理解高层语言,但缺少精确放置、朝向、碰撞和物理约束所需的几何智能。

RAM 将抽象概念 grounding 到显式 3D object-centric representation,再把该结构化信息作为增强上下文提供给 VLM,使其能把复杂语言指令分解为空间精确、物理可行的子目标序列。

论文在真实机器人零样本设置中展示复杂空间语言指令执行、单张 2D 图像指导下的空间操作,以及基于物体尺寸和碰撞约束的自适应重规划。

收录价值在于它提供了 VLM 与几何执行之间的可复用桥接模式,是 VLA/robot foundation model 落地操作任务时需要的关键系统接口。

论文摘要

Retrieval-Augmented Manipulation (RAM) is an object-centric framework that gives general-purpose vision foundation models spatial reasoning for robotic manipulation by grounding abstract concepts into explicit 3D object-centric representations and feeding them as augmented context to a VLM.

相关论文

链接