多模态基础模型
突破级
暂无讲解视频
收录解读
这篇 CVPR 2025 论文关注可扩展、可控的场景生成,把时空自回归框架与视频扩散模型结合起来。它解决的不是单帧图像美观度,而是连续场景在空间和时间上的可组织生成。
它的可复用价值在于为 world generation 和仿真资产生成提供结构化生成接口。自回归负责长期时空展开,扩散负责局部视觉质量和可控性,这种分工对长场景生成有系统意义。
按本库标准,它属于 multimodal/world-grounded generation 方向的高质量顶会论文,贡献形态接近可复用生成框架,而不是单一视觉特效技巧。
局限是生成场景能否直接服务机器人、自动驾驶或交互式世界模型,还取决于物理一致性、可编辑性和下游闭环验证。