生成建模与扩散
突破级
暂无讲解视频
收录解读
SANA-WM 是 NVIDIA 发布的 2.6B 开源世界模型,目标是高效生成 60 秒、720p、相机轨迹可控的视频世界。
系统组合高压缩视频 tokenizer、Hybrid Linear Diffusion Transformer、frame-wise Gated DeltaNet 与 softmax attention、dual-branch 6-DoF camera control、两阶段视觉 refinement 和 public video pose annotation pipeline。
它值得正式收录,因为它把世界模型从短视频 demo 推向 minute-scale action-controllable generation,并强调可访问训练/推理成本:64 H100 训练、单 GPU 推理和量化后单 5090 部署。
它没有更高,是因为当前 action space 主要是相机控制,离完整 embodied action/world dynamics 仍有距离。