生成建模与扩散
突破级
暂无讲解视频
收录解读
LeapAlign 解决 flow matching / diffusion 后训练的核心瓶颈:奖励梯度沿完整生成轨迹反传会导致显存成本高、梯度爆炸,并且难以有效更新早期步骤,而早期步骤恰恰决定全局构图。
方法把长 ODE trajectory 压缩成两个连续 leap:每个 leap 跳过多个采样步并预测未来 latent。通过随机化起止 timestep、按与完整轨迹一致性加权、对大幅梯度项降权,模型可以在任意生成阶段进行更稳定的 preference fine-tuning。
收录价值在于它为 flow matching 模型的 post-training 提供了可复用训练 primitive。随着图像/视频生成从 diffusion 走向 flow matching,如何高效对齐早期结构步骤会成为高价值系统问题。
限制是目前验证主要在 Flux 图像生成上,是否能稳定扩展到视频、3D、音频或更长生成轨迹仍需进一步实验;同时 reward model 偏差仍会直接影响对齐方向。