StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation

多模态基础模型突破级暂无讲解视频

收录解读

这篇 CVPR 2025 论文关注可扩展、可控的场景生成，把时空自回归框架与视频扩散模型结合起来。它解决的不是单帧图像美观度，而是连续场景在空间和时间上的可组织生成。

它的可复用价值在于为 world generation 和仿真资产生成提供结构化生成接口。自回归负责长期时空展开，扩散负责局部视觉质量和可控性，这种分工对长场景生成有系统意义。

按本库标准，它属于 multimodal/world-grounded generation 方向的高质量顶会论文，贡献形态接近可复用生成框架，而不是单一视觉特效技巧。

局限是生成场景能否直接服务机器人、自动驾驶或交互式世界模型，还取决于物理一致性、可编辑性和下游闭环验证。