Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models

强化学习突破级暂无讲解视频

收录解读

这篇论文的价值首先在问题重构：机器人操作的底层并不是语言或视频预测，而是从视觉到三维几何的映射。动作由位置、旋转和空间关系定义，因此 backbone 应该优先对齐 3D geometry。

作者提出 Vision-Geometry-Action，用预训练 3D world model 替代传统语言/视频 backbone，并通过 volumetric modulation 和联合预测动作/3D 属性增强几何一致性。

按本库标准，它值得收录，因为它提出了 VLA 热潮下的反向框架：通用操作策略可能需要 vision-geometry backbone，而不是继续堆语义或视频先验。这个 framing 对机器人模型设计有外溢价值。

局限是论文论证仍需更多真实机器人、复杂接触和长程任务验证；“geometry over language/video”可能是强假设，不一定覆盖全部操作场景。