收录解读
这篇工作针对 text-to-image diffusion model 的 RL 后训练提出了一个很具体但现实的瓶颈:随着 rollout group size 增大,偏好对齐效果会继续上涨,但在 FLUX.1-12B 这类大模型上直接扩大 rollout 会迅速被算力和吞吐拖死。问题不在于 RL 本身是否有效,而在于现有 pipeline 缺少一种能把大规模探索成本压下去的训练组织方式。
论文提出 Sol-RL,把 rollout exploration 和 policy optimization 显式拆成两段:先用高吞吐的 NVFP4 rollout 生成大规模候选池,再从中筛出高对比样本,用 BF16 重新生成并只在这些高保真样本上做优化。关键点不只是量化加速,而是把低精度探索和高精度训练组合成一个两阶段框架,用算法上的 sample selection 去抵消直接量化训练带来的退化风险。
它值得正式收录,因为这不是一个孤立的 diffusion 调参技巧,而是一条可复用的 post-training workflow:把 massive rollout scaling、低精度探索和高保真优化拼成统一训练接口。对生成模型后训练、偏好对齐和算法-硬件协同设计都有明显外溢,符合仓库对 generative modeling 与系统化训练流程的重点方向。
目前它还没有到更高一级,主要因为验证范围仍集中在 diffusion RL for T2I alignment,外溢虽强但尚未证明会成为跨生成范式的长期标准。它更像一篇非常扎实的强方法和强流程论文,而不是已经改写整个后训练版图的 paradigm/disruptive 级工作。