多模态基础模型
突破级
暂无讲解视频
收录解读
Lyra 2.0 关注生成式 3D 世界构建的新范式:先生成可控相机视频,再通过 feed-forward reconstruction 提升为可渲染 3D。这个方向结合视频模型的创造力和 3D 输出的交互可用性。
论文针对长轨迹探索里的 spatial forgetting 和 temporal drifting,尝试让模型在大视角变化和位置重访时保持 3D 一致性。其目标不是单个物体或短片段,而是可探索的大场景生成。
它值得收录,是因为 explorable generative 3D worlds 是世界模型、游戏/仿真内容生产和具身训练环境的重要交叉点。Lyra 2.0 把视频生成、场景重建和长程一致性问题放进同一工作流。
局限在于生成式重建路线仍受视频模型一致性和重建误差限制;离真实物理仿真与可交互世界模型还有距离。