HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-15
arXiv: 2604.14268

收录解读

问题与背景：3D world model 正从单一视角重建走向可导航、可生成、可仿真的统一世界表示。HY-World 2.0 试图把文本、图像、多视图和视频输入统一到 3DGS world construction pipeline 中。

方法与新意：系统由 panorama generation、trajectory planning、world expansion、world composition 与 feed-forward 3D prediction 组成，并加入 WorldLens 渲染平台。它强调的不只是生成一段视频，而是构造可漫游和可组合的 3D 世界。

收录意义：这篇适合进入 multimodal/world-model 主线，因为它给出了从多模态输入到 3D 世界重建/生成/模拟的一体化系统 blueprint，对后续 embodied simulation、world generation 和 spatial agent environment 都有参考价值。

局限：论文仍偏系统报告，多个子模块贡献混合，真实物理交互、长程一致性和开放场景泛化仍需第三方验证；因此按 breakthrough 而非 paradigm 收录。

链接

论文链接