MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

多模态基础模型突破级有讲解视频

发表时间: 2025-12-07
arXiv: 2512.06628

收录解读

机器人模仿学习长期受限于长时程、高质量操作视频数据不足，而现有生成模型通常只能合成短片段、简单动作，且缺少物理一致性。本文针对的是：如何生成长时程、可控且更符合物理规律的机器人操作视频。

作者提出 MIND-V，一个分层视频生成框架，由语义推理中心、行为语义桥接器和运动视频生成器组成，并在测试时加入 staged visual future rollouts 以提高长时程稳定性。更关键的是，它引入 Physical Foresight Coherence 奖励，并用 V-JEPA world model 作为物理前瞻约束，对生成视频进行 RL 对齐。

这篇论文适合多模态 / world model / embodied data synthesis 主线。它不只是视频质量优化，而是把“生成数据是否有助于后续机器人学习”放到核心位置，对 robot data generation 和 physically grounded video synthesis 都有外溢价值。

它归为突破性而不是更高一级，因为目前仍属于机器人视频生成这一较窄赛道，虽然物理对齐思路很对，但离更广泛的视频世界模型范式转变还有距离。

解读视频

B 站 YouTube

链接

论文链接