强化学习
突破级
暂无讲解视频
收录解读
这篇论文的价值首先在问题重构:机器人操作的底层并不是语言或视频预测,而是从视觉到三维几何的映射。动作由位置、旋转和空间关系定义,因此 backbone 应该优先对齐 3D geometry。
作者提出 Vision-Geometry-Action,用预训练 3D world model 替代传统语言/视频 backbone,并通过 volumetric modulation 和联合预测动作/3D 属性增强几何一致性。
按本库标准,它值得收录,因为它提出了 VLA 热潮下的反向框架:通用操作策略可能需要 vision-geometry backbone,而不是继续堆语义或视频先验。这个 framing 对机器人模型设计有外溢价值。
局限是论文论证仍需更多真实机器人、复杂接触和长程任务验证;“geometry over language/video”可能是强假设,不一定覆盖全部操作场景。