Asymmetric Flow Models

生成建模与扩散突破级暂无讲解视频

发表时间: 2026-05-14
arXiv: 2605.12964

收录解读

AsymFlow 处理的是高维 flow / diffusion 生成里的结构性瓶颈：在 pixel space 预测 full-dimensional velocity 时，模型必须处理高维噪声，plain transformer 的内部表示容易被噪声维度压垮。

论文提出 rank-asymmetric velocity parameterization：数据分量保持全维，噪声分量限制在低秩子空间，再解析恢复全维 velocity，不需要改变网络架构、训练流程或采样流程。这个参数化还给出从 pretrained latent flow model lift 到 pixel-space model 的路径。

它值得正式收录，因为它不是单纯刷 FID，而是给高维生成提供了一个干净的可复用目标参数化，并首次展示把大规模 latent flow 模型 finetune 成强 pixel-space flow model 的实用路线。ImageNet 256x256 的 1.57 FID 和 FLUX.2 klein 9B pixel-space finetuning 结果说明其系统价值较强。

它没有更高，是因为 pixel-space 大模型路线是否会成为主流仍取决于训练成本、开源复现、视频/3D 扩展和与 latent/RAE 路线的长期比较。

链接

论文链接代码