收录解读
现代 latent diffusion pipeline 通常把 tokenizer 和 generator 分成两阶段:先学一个可重建的 latent space,再冻结它去训练 diffusion 或 flow model。这个流程已经变成默认配方,但它也把 latent space 的两种目标人为拆开了:一边追求重建与判别友好,一边追求生成分布的可建模性。UNITE 直接针对这个结构性问题下手,问的是 tokenization 和 generation 是否本来就该作为同一个 end-to-end latent inference 问题来联合训练。
论文提出的 UNITE 把 tokenizer 与 latent denoiser 统一到同一个共享参数的 Generative Encoder 里:在 tokenization 模式下,它从完整观测推断 clean latent;在 generation 模式下,它从噪声和条件出发恢复相同 latent。训练时只保留 reconstruction objective 和 latent-space flow-matching objective,通过两次前向传播端到端联合优化,不依赖 adversarial losses、预训练 DINO encoder 或额外教师信号。这个设计给出的不是单一 trick,而是对 latent pipeline 边界的一次明确重写。
这篇工作值得正式收录,因为它把“先学 tokenizer、再学 generator”这条长期默认工序改写成一个更统一、也更干净的训练范式。对 generative modeling 主线而言,真正有价值的不是单次 FID,而是它给出了一个共享 latent language 的可复用接口:同一表示同时承担重建、推断和生成职责,并且已经展示到图像与分子两类模态上。这类统一 latent interface 对后续多模态生成、科学生成和世界模型都有外溢。
它目前仍是 breakthrough,而不是更高一级,因为证据主要集中在 ImageNet 256 和分子模态的端到端可行性与近 SOTA 结果,距离成为 latent generation 默认范式还有一步。社区还需要验证它在更大规模视频、音频、3D 或强条件生成任务上的稳定性,以及这种 joint shaping 是否会在更复杂设定下持续优于 staged training。