Towards Precise Scaling Laws for Video Diffusion Transformers

生成建模与扩散突破级暂无讲解视频

收录解读

这篇 CVPR 2025 论文不是只提出一个视频生成模型，而是系统研究 Video Diffusion Transformer 的 scaling law。对于视频生成这种高计算成本方向，模型、数据和算力怎么配比本身就是关键研究问题。

它的价值在于给视频 DiT 训练提供定量指导：哪些因素更影响质量、不同规模下的收益如何变化、如何避免盲目扩参或盲目加数据。这类规律对后续模型设计和预算分配有长期参考意义。

按本库标准，它进入正式收录，因为 scaling law 属于可复用理论/工程接口，且视频生成是高溢出的 multimodal generative modeling 方向。顶会 CVPR 来源也提高了可信度。

局限是 scaling law 往往受数据、架构、评价指标和训练 recipe 影响，外推到完全不同视频模型家族时仍需谨慎。