生成建模与扩散 突破级 暂无讲解视频
发表时间
2025-06-01

收录解读

这篇 CVPR 2025 论文不是只提出一个视频生成模型,而是系统研究 Video Diffusion Transformer 的 scaling law。对于视频生成这种高计算成本方向,模型、数据和算力怎么配比本身就是关键研究问题。

它的价值在于给视频 DiT 训练提供定量指导:哪些因素更影响质量、不同规模下的收益如何变化、如何避免盲目扩参或盲目加数据。这类规律对后续模型设计和预算分配有长期参考意义。

按本库标准,它进入正式收录,因为 scaling law 属于可复用理论/工程接口,且视频生成是高溢出的 multimodal generative modeling 方向。顶会 CVPR 来源也提高了可信度。

局限是 scaling law 往往受数据、架构、评价指标和训练 recipe 影响,外推到完全不同视频模型家族时仍需谨慎。

链接