LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

生成建模与扩散突破级暂无讲解视频

收录解读

LeapAlign 解决 flow matching / diffusion 后训练的核心瓶颈：奖励梯度沿完整生成轨迹反传会导致显存成本高、梯度爆炸，并且难以有效更新早期步骤，而早期步骤恰恰决定全局构图。

方法把长 ODE trajectory 压缩成两个连续 leap：每个 leap 跳过多个采样步并预测未来 latent。通过随机化起止 timestep、按与完整轨迹一致性加权、对大幅梯度项降权，模型可以在任意生成阶段进行更稳定的 preference fine-tuning。

收录价值在于它为 flow matching 模型的 post-training 提供了可复用训练 primitive。随着图像/视频生成从 diffusion 走向 flow matching，如何高效对齐早期结构步骤会成为高价值系统问题。

限制是目前验证主要在 Flux 图像生成上，是否能稳定扩展到视频、3D、音频或更长生成轨迹仍需进一步实验；同时 reward model 偏差仍会直接影响对齐方向。