A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation

强化学习突破级暂无讲解视频

发表时间: 2026-04-29

核心要点

问题/背景: 这篇 Science Robotics 论文提出 RAM，用 retrieval-augmented object-centric 3D 表征补足 VLM 在机器人操作中的空间推理缺口。问题在于 VLM 能理解高层语言，但缺少精确放置、朝向、碰撞和物理约束所需的几何智能。
方法/机制: RAM 将抽象概念 grounding 到显式 3D object-centric representation，再把该结构化信息作为增强上下文提供给 VLM，使其能把复杂语言指令分解为空间精确、物理可行的子目标序列。
结果/证据: 论文在真实机器人零样本设置中展示复杂空间语言指令执行、单张 2D 图像指导下的空间操作，以及基于物体尺寸和碰撞约束的自适应重规划。
收录价值: 收录价值在于它提供了 VLM 与几何执行之间的可复用桥接模式，是 VLA/robot foundation model 落地操作任务时需要的关键系统接口。

收录解读

这篇 Science Robotics 论文提出 RAM，用 retrieval-augmented object-centric 3D 表征补足 VLM 在机器人操作中的空间推理缺口。问题在于 VLM 能理解高层语言，但缺少精确放置、朝向、碰撞和物理约束所需的几何智能。

RAM 将抽象概念 grounding 到显式 3D object-centric representation，再把该结构化信息作为增强上下文提供给 VLM，使其能把复杂语言指令分解为空间精确、物理可行的子目标序列。

论文在真实机器人零样本设置中展示复杂空间语言指令执行、单张 2D 图像指导下的空间操作，以及基于物体尺寸和碰撞约束的自适应重规划。

收录价值在于它提供了 VLM 与几何执行之间的可复用桥接模式，是 VLA/robot foundation model 落地操作任务时需要的关键系统接口。

论文摘要

Retrieval-Augmented Manipulation (RAM) is an object-centric framework that gives general-purpose vision foundation models spatial reasoning for robotic manipulation by grounding abstract concepts into explicit 3D object-centric representations and feeding them as augmented context to a VLM.

链接

论文链接项目

核心要点

收录解读

论文摘要

相关论文

链接