机器人与具身智能 突破级 暂无讲解视频
发表时间
2026-05-11
arXiv
2605.09989

核心要点

问题/背景
这篇论文针对机器人 imitation learning 中单目视觉的结构性短板:RGB policy 可以学到语义和外观,但在杂乱、透明、几何复杂场景里缺少稳定深度和空间对应线索。
方法/机制
StereoPolicy 直接使用同步 stereo image pairs,不显式重建 3D、也不依赖相机标定;左右图分别进入 pretrained 2D vision encoder,再由 Stereo Transformer 融合,隐式捕捉 correspondence 和 disparity。
结果/证据
它的接口设计比较实用:既能接入 diffusion-based policies,也能接入 pretrained VLA policies,不要求改动 backbone;在 RoboMimic、RoboCasa、OmniGibson 和真实 tabletop/bimanual mobile manipulation 中均展示相对 RGB、RGB-D、point cloud、多视角 baselines 的提升。
收录价值
收录价值在于它提出了一个可扩展的机器人视觉模态接口:用 stereo 连接大规模 2D 预训练表征与 3D 几何操作需求,对 VLA、diffusion policy 和真实机器人部署都有直接方法价值。
完整收录解读

这篇论文针对机器人 imitation learning 中单目视觉的结构性短板:RGB policy 可以学到语义和外观,但在杂乱、透明、几何复杂场景里缺少稳定深度和空间对应线索。

StereoPolicy 直接使用同步 stereo image pairs,不显式重建 3D、也不依赖相机标定;左右图分别进入 pretrained 2D vision encoder,再由 Stereo Transformer 融合,隐式捕捉 correspondence 和 disparity。

它的接口设计比较实用:既能接入 diffusion-based policies,也能接入 pretrained VLA policies,不要求改动 backbone;在 RoboMimic、RoboCasa、OmniGibson 和真实 tabletop/bimanual mobile manipulation 中均展示相对 RGB、RGB-D、point cloud、多视角 baselines 的提升。

收录价值在于它提出了一个可扩展的机器人视觉模态接口:用 stereo 连接大规模 2D 预训练表征与 3D 几何操作需求,对 VLA、diffusion policy 和真实机器人部署都有直接方法价值。

论文摘要

StereoPolicy 是一种基于同步立体图像对的视觉运动策略学习框架,旨在通过无需显式 3D 重建或相机校准,提升机器人操作中的几何推理能力。它使用预训练的 2D 视觉编码器处理每个图像,并通过立体 Transformer 融合表示,与 RoboMimic、RoboCasa、OmniGibson 以及真实桌面和双手移动操作实验中的扩散策略和预训练的 VLA 策略集成。

英文原文

StereoPolicy is a visuomotor policy learning framework that uses synchronized stereo image pairs to improve geometric reasoning for robotic manipulation without explicit 3D reconstruction or camera calibration. It processes each image with pretrained 2D vision encoders and fuses representations through a Stereo Transformer, integrating with diffusion policies and pretrained VLA policies across RoboMimic, RoboCasa, OmniGibson, and real tabletop and bimanual mobile manipulation experiments.

相关论文

链接