End-to-End Training for Unified Tokenization and Latent Denoising

生成建模与扩散突破级有讲解视频

发表时间: 2026-03-23
arXiv: 2603.22283

收录解读

现代 latent diffusion pipeline 通常把 tokenizer 和 generator 分成两阶段：先学一个可重建的 latent space，再冻结它去训练 diffusion 或 flow model。这个流程已经变成默认配方，但它也把 latent space 的两种目标人为拆开了：一边追求重建与判别友好，一边追求生成分布的可建模性。UNITE 直接针对这个结构性问题下手，问的是 tokenization 和 generation 是否本来就该作为同一个 end-to-end latent inference 问题来联合训练。

论文提出的 UNITE 把 tokenizer 与 latent denoiser 统一到同一个共享参数的 Generative Encoder 里：在 tokenization 模式下，它从完整观测推断 clean latent；在 generation 模式下，它从噪声和条件出发恢复相同 latent。训练时只保留 reconstruction objective 和 latent-space flow-matching objective，通过两次前向传播端到端联合优化，不依赖 adversarial losses、预训练 DINO encoder 或额外教师信号。这个设计给出的不是单一 trick，而是对 latent pipeline 边界的一次明确重写。

这篇工作值得正式收录，因为它把“先学 tokenizer、再学 generator”这条长期默认工序改写成一个更统一、也更干净的训练范式。对 generative modeling 主线而言，真正有价值的不是单次 FID，而是它给出了一个共享 latent language 的可复用接口：同一表示同时承担重建、推断和生成职责，并且已经展示到图像与分子两类模态上。这类统一 latent interface 对后续多模态生成、科学生成和世界模型都有外溢。

它目前仍是 breakthrough，而不是更高一级，因为证据主要集中在 ImageNet 256 和分子模态的端到端可行性与近 SOTA 结果，距离成为 latent generation 默认范式还有一步。社区还需要验证它在更大规模视频、音频、3D 或强条件生成任务上的稳定性，以及这种 joint shaping 是否会在更复杂设定下持续优于 staged training。

解读视频

B 站 YouTube

链接

论文链接