生成建模与扩散 突破级 暂无讲解视频
发表时间
2026-04-16
arXiv
2604.15311

收录解读

LeapAlign 解决 flow matching / diffusion 后训练的核心瓶颈:奖励梯度沿完整生成轨迹反传会导致显存成本高、梯度爆炸,并且难以有效更新早期步骤,而早期步骤恰恰决定全局构图。

方法把长 ODE trajectory 压缩成两个连续 leap:每个 leap 跳过多个采样步并预测未来 latent。通过随机化起止 timestep、按与完整轨迹一致性加权、对大幅梯度项降权,模型可以在任意生成阶段进行更稳定的 preference fine-tuning。

收录价值在于它为 flow matching 模型的 post-training 提供了可复用训练 primitive。随着图像/视频生成从 diffusion 走向 flow matching,如何高效对齐早期结构步骤会成为高价值系统问题。

限制是目前验证主要在 Flux 图像生成上,是否能稳定扩展到视频、3D、音频或更长生成轨迹仍需进一步实验;同时 reward model 偏差仍会直接影响对齐方向。

链接