FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

生成建模与扩散突破级暂无讲解视频

发表时间: 2026-04-08
arXiv: 2604.06916

收录解读

这篇工作针对 text-to-image diffusion model 的 RL 后训练提出了一个很具体但现实的瓶颈：随着 rollout group size 增大，偏好对齐效果会继续上涨，但在 FLUX.1-12B 这类大模型上直接扩大 rollout 会迅速被算力和吞吐拖死。问题不在于 RL 本身是否有效，而在于现有 pipeline 缺少一种能把大规模探索成本压下去的训练组织方式。

论文提出 Sol-RL，把 rollout exploration 和 policy optimization 显式拆成两段：先用高吞吐的 NVFP4 rollout 生成大规模候选池，再从中筛出高对比样本，用 BF16 重新生成并只在这些高保真样本上做优化。关键点不只是量化加速，而是把低精度探索和高精度训练组合成一个两阶段框架，用算法上的 sample selection 去抵消直接量化训练带来的退化风险。

它值得正式收录，因为这不是一个孤立的 diffusion 调参技巧，而是一条可复用的 post-training workflow：把 massive rollout scaling、低精度探索和高保真优化拼成统一训练接口。对生成模型后训练、偏好对齐和算法-硬件协同设计都有明显外溢，符合仓库对 generative modeling 与系统化训练流程的重点方向。

目前它还没有到更高一级，主要因为验证范围仍集中在 diffusion RL for T2I alignment，外溢虽强但尚未证明会成为跨生成范式的长期标准。它更像一篇非常扎实的强方法和强流程论文，而不是已经改写整个后训练版图的 paradigm/disruptive 级工作。

链接

论文链接