生成建模与扩散
突破级
暂无讲解视频
收录解读
这篇论文处理的是文本到图像模型后训练里一个已经很重要、但代价很高的问题:如何用强化学习直接优化图像质量和文本对齐。现有做法通常把扩散或流匹配采样过程拆成多步策略决策,把每一步都当作动作来估计策略梯度,但这样会带来很高的更新方差,训练既慢又容易出现 reward hacking 伪影。
论文提出 Finite Difference Flow Optimization(FDFO),把整条采样轨迹视为单一动作,而不是多步 MDP。具体做法是从同一个初始噪声出发采样一对微扰轨迹,用最终生成图像的差值和奖励差来构造有限差分方向,再把这个更平滑的宏观信号回传到流速度更新中。这个设计显著提高了信噪比,也避开了逐步策略梯度在长生成链上的高噪声问题。
它值得收录,因为这不是一个小技巧型 RL 调参,而是对 diffusion/flow model post-training 的动作建模方式做了更合适的重述。把整条生成过程当作单一动作去优化,比机械沿用标准 MDP 拆步更符合图像生成的结果导向结构。论文同时展示了很强的实用收益:训练收敛更快、输出质量和 prompt alignment 更高,而且能明显减轻训练后期的奖励破解与网格伪影。对生成模型后训练和基于 VLM reward 的对齐路线都有直接外溢。
它没有升到更高一级,原因在于这仍然是后训练优化层的方法改进,而不是重新定义整个文本到图像生成路线的基础架构。它更像一篇很强的 post-training 算法论文:价值高、可复用、效果硬,但还没有到会重排生成模型主干范式的程度。