多模态基础模型
突破级
暂无讲解视频
收录解读
问题与背景:3D world model 正从单一视角重建走向可导航、可生成、可仿真的统一世界表示。HY-World 2.0 试图把文本、图像、多视图和视频输入统一到 3DGS world construction pipeline 中。
方法与新意:系统由 panorama generation、trajectory planning、world expansion、world composition 与 feed-forward 3D prediction 组成,并加入 WorldLens 渲染平台。它强调的不只是生成一段视频,而是构造可漫游和可组合的 3D 世界。
收录意义:这篇适合进入 multimodal/world-model 主线,因为它给出了从多模态输入到 3D 世界重建/生成/模拟的一体化系统 blueprint,对后续 embodied simulation、world generation 和 spatial agent environment 都有参考价值。
局限:论文仍偏系统报告,多个子模块贡献混合,真实物理交互、长程一致性和开放场景泛化仍需第三方验证;因此按 breakthrough 而非 paradigm 收录。