MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

多模态基础模型突破级暂无讲解视频

发表时间: 2026-02-10
arXiv: 2602.09878

收录解读

问题与背景机器人 manipulation 里的世界模型常常只能做单视角视频预测，或者只能处理部分 3D 几何，因此很难稳定支持真实操作所需的完整 4D 场景想象和行动推断。MVISTA-4D 试图把多视角、一致几何和动作反推整合到同一个模型里。

方法/新意它从单视角 RGBD 观察出发，生成任意视角的未来 RGBD 场景，并通过跨视角、跨模态特征融合保持 RGB 与 depth 的一致性和几何对齐。行动部分没有简单依赖逆动力学，而是做 test-time action optimization，再用残差逆动力学网络把场景未来转成可执行动作。

意义/放在仓库中的位置这篇属于世界模型 / embodied AI 主线，和 PerpetualWonder、World-VLA-Loop、Drive-JEPA 属于同一类“让视频世界模型真正服务行动”的工作。它适合归在多模态世界模型和机器人 4D 生成之间的交叉位置。

局限/为何不更高证据主要来自 manipulation 数据集和机器人任务，外溢性还局限在 embodied 4D world model 这一支线。它是很强的方法论文，但还不是那种重新定义整个世界模型路线的总攻成果。

链接

论文链接