Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models

生成建模与扩散突破级暂无讲解视频

发表时间: 2026-03-13
arXiv: 2603.12893

收录解读

这篇论文处理的是文本到图像模型后训练里一个已经很重要、但代价很高的问题：如何用强化学习直接优化图像质量和文本对齐。现有做法通常把扩散或流匹配采样过程拆成多步策略决策，把每一步都当作动作来估计策略梯度，但这样会带来很高的更新方差，训练既慢又容易出现 reward hacking 伪影。

论文提出 Finite Difference Flow Optimization（FDFO），把整条采样轨迹视为单一动作，而不是多步 MDP。具体做法是从同一个初始噪声出发采样一对微扰轨迹，用最终生成图像的差值和奖励差来构造有限差分方向，再把这个更平滑的宏观信号回传到流速度更新中。这个设计显著提高了信噪比，也避开了逐步策略梯度在长生成链上的高噪声问题。

它值得收录，因为这不是一个小技巧型 RL 调参，而是对 diffusion/flow model post-training 的动作建模方式做了更合适的重述。把整条生成过程当作单一动作去优化，比机械沿用标准 MDP 拆步更符合图像生成的结果导向结构。论文同时展示了很强的实用收益：训练收敛更快、输出质量和 prompt alignment 更高，而且能明显减轻训练后期的奖励破解与网格伪影。对生成模型后训练和基于 VLM reward 的对齐路线都有直接外溢。

它没有升到更高一级，原因在于这仍然是后训练优化层的方法改进，而不是重新定义整个文本到图像生成路线的基础架构。它更像一篇很强的 post-training 算法论文：价值高、可复用、效果硬，但还没有到会重排生成模型主干范式的程度。

链接

论文链接