生成建模与扩散 突破级 暂无讲解视频
发表时间
2026-05-14
arXiv
2605.12964

收录解读

AsymFlow 处理的是高维 flow / diffusion 生成里的结构性瓶颈:在 pixel space 预测 full-dimensional velocity 时,模型必须处理高维噪声,plain transformer 的内部表示容易被噪声维度压垮。

论文提出 rank-asymmetric velocity parameterization:数据分量保持全维,噪声分量限制在低秩子空间,再解析恢复全维 velocity,不需要改变网络架构、训练流程或采样流程。这个参数化还给出从 pretrained latent flow model lift 到 pixel-space model 的路径。

它值得正式收录,因为它不是单纯刷 FID,而是给高维生成提供了一个干净的可复用目标参数化,并首次展示把大规模 latent flow 模型 finetune 成强 pixel-space flow model 的实用路线。ImageNet 256x256 的 1.57 FID 和 FLUX.2 klein 9B pixel-space finetuning 结果说明其系统价值较强。

它没有更高,是因为 pixel-space 大模型路线是否会成为主流仍取决于训练成本、开源复现、视频/3D 扩展和与 latent/RAE 路线的长期比较。

链接