生成建模与扩散

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

发表：2026-05-27 · 突破级

交互式视频 world models 过去多默认单一控制信号，但游戏、机器人和多主体仿真都需要多个 agent 在同一环境中同时行动。 Gamma-World 的核心是把多 agent identity 和交互建模进生成式 world model：Simplex Rotary Agent Encoding 让...

WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

发表：2026-05-25 · 突破级

WBench 针对 interactive video/world models 的评估缺口：现有 benchmark 往往只覆盖静态视频质量、单轮生成或局部交互能力，缺少系统化多轮世界评测。它构建 289 个 test cases 和 1,058 个 interaction turns，每个样例包含世界设定...

SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models

发表：2026-05-22 · 突破级

SCOPE 处理 FPS playable world models 的控制难题：高频、重叠的控制信号会同时影响局部武器区域和全局相机/移动，普通全局 action injection 容易干扰无关区域。论文观察到 FPS actions 具有空间选择性，离散动作如开火和换弹主要影响 weapon scope...

WorldKV: Efficient World Memory with World Retrieval and Compression

发表：2026-05-21 · 突破级

WorldKV 针对 action-conditioned video/world generation 的核心瓶颈：完整 KV cache 能保持场景一致性，但 rollout 变长后内存和注意力成本线性增长；滑窗推理则会丢失长期世界一致性。方法包含 World Retrieval 和 World Comp...

Rethinking Cross-Layer Information Routing in Diffusion Transformers

发表：2026-05-21 · 突破级

这篇论文聚焦 Diffusion Transformers 中长期被默认继承的 residual stream，指出跨层信息流在深度和 denoising timestep 上存在幅值膨胀、梯度衰减和 block redundancy。作者提出 Diffusion-Adaptive Routing (DAR)...

RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution

发表：2026-05-20 · 突破级

RankE 针对 discrete text-to-image generation 的后训练问题：如果只优化离散 token 生成器，decoder 的表达边界会限制最终图像质量和偏好对齐。论文提出 decoder co-evolution，让后训练同时影响离散生成和解码路径，形成更端到端的偏好优化流程...

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

发表：2026-05-20 · 突破级

Lens 关注 foundational text-to-image models 的训练效率，而不是单一 benchmark 或局部模块改进。论文系统重构训练 recipe，涉及高质量 dense captions、多分辨率训练、语义 VAE、强化学习优化和蒸馏等环节。这种工作对生成模型基础设施有价值，因...

PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

发表：2026-05-20 · 突破级

PhysX-Omni 面向 embodied AI 和物理仿真的关键缺口：现有 3D 生成往往只生成外观几何，缺少可直接进入仿真的物理属性，且常局限于刚体、可变形物体或关节物体中的单一类别。论文提出统一的 simulation-ready physical 3D generation 框架，并设计适配 VLM...

WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes

发表：2026-05-15 · 突破级

WorldAct 针对当前 3D world generation 的重要缺口：生成世界往往是静态 monolithic asset，难以编辑、碰撞、操作或用于 embodied simulation。它用 multimodal agent 指导场景分解、识别可行动对象、重建几何对齐的 object-leve...

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

发表：2026-05-15 · 突破级

SANA-WM 是 NVIDIA 发布的 2.6B 开源世界模型，目标是高效生成 60 秒、720p、相机轨迹可控的视频世界。系统组合高压缩视频 tokenizer、Hybrid Linear Diffusion Transformer、frame-wise Gated DeltaNet 与 softmax...

Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

发表：2026-05-14 · 突破级

这篇论文把复杂视觉生成从单步 prompt-to-image 推向闭环、可验证的多步推理生成。CLVR 将视觉语言规划、像素级扩散生成和 step-level verification 串成一个闭环。方法上，它用自动数据引擎生成带验证的推理轨迹，用 Proxy Prompt RL 解决长上下文优化与因果归因问...

Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

发表：2026-05-14 · 突破级

Causal Forcing++ 针对 real-time interactive video generation 的低延迟瓶颈，把 autoregressive diffusion distillation 推到 frame-wise 1-2 sampling steps。论文指出 few-step AR...

Asymmetric Flow Models

发表：2026-05-14 · 突破级

AsymFlow 处理的是高维 flow / diffusion 生成里的结构性瓶颈：在 pixel space 预测 full-dimensional velocity 时，模型必须处理高维噪声，plain transformer 的内部表示容易被噪声维度压垮。论文提出 rank-asymmetric ve...

Flow-OPD: On-Policy Distillation for Flow Matching Models

发表：2026-05-13 · 突破级

这篇论文把 on-policy distillation 引入 flow matching models。它的价值在于把生成模型 distillation 从离线 teacher imitation 推向更接近当前模型采样分布的训练。 Flow matching 已经是扩散/生成建模的重要替代路线，蒸馏效率直接...

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

发表：2026-05-13 · 突破级

AnyFlow 针对 few-step video diffusion 的一个关键缺陷：consistency distillation 在少步采样时有效，但随着测试时步数增加反而可能退化，因为它替换了原始 probability-flow ODE trajectory，破坏了 ODE sampling 的 t...

G-Zero: Self-Play for Open-Ended Generation from Zero Data

发表：2026-05-12 · 突破级

这篇论文的核心吸引力是把 self-play 引入开放式生成，并强调 zero-data bootstrapping。它不是普通数据增强，而是试图让生成系统通过自博弈产生可扩展训练信号。如果这个方向成立，生成模型可以减少对静态数据集和人工偏好标注的依赖，转向更开放的任务生成、评估和改进循环。它值得正式收录...

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in Unified Multimodal Models via Decompositional Verifiable Reward

发表：2026-05-12 · 突破级

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in Unified Multimodal Models via Decompositional Verifiable Reward 关注的是一个可复用的 AI 系统或评测问题，而不是单点 de...

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

发表：2026-05-11 · 突破级

这篇论文关注生成模型 scaling 中很硬的稳定性问题：Diffusion Transformer 继续加深时会出现均值主导的 collapse。它把这个失效模式命名并给出结构性处理。 Mean-Variance Split Residuals 的意义在于把超深 DiT 的训练稳定性变成架构问题，而不是只靠调...

ELF: Embedded Language Flows

发表：2026-05-11 · 突破级

ELF proposes Embedded Language Flows, a diffusion/flow language-modeling approach that operates primarily in continuous embedding space rather than over dis...

Sub-JEPA: Subspace Gaussian Regularization for Stable End-to-End World Models

发表：2026-05-10 · 突破级

这篇 arXiv 论文直接接在 LeWorldModel 之后，处理 JEPA 世界模型从像素端到端训练的核心问题：表示崩溃与过强先验之间的 bias-variance tradeoff。 LeWM 用全 latent 空间的各向同性高斯正则防止 collapse，但作者指出控制任务的 latent 往往落在高...

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

发表：2026-04-16 · 突破级

LeapAlign 解决 flow matching / diffusion 后训练的核心瓶颈：奖励梯度沿完整生成轨迹反传会导致显存成本高、梯度爆炸，并且难以有效更新早期步骤，而早期步骤恰恰决定全局构图。方法把长 ODE trajectory 压缩成两个连续 leap：每个 leap 跳过多个采样步并预测未来...

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

发表：2026-04-13 · 突破级

问题与背景：连续扩散在图像等模态上很强，但在语言建模中长期落后于离散扩散和自回归模型，核心难点来自稀疏 token 空间、评价方式不统一和训练设计不足。方法与新意：LangFlow 把 embedding-space diffusion language models 与 Flow Matching 通过 B...

Continuous Adversarial Flow Models

发表：2026-04-13 · 突破级

这篇论文针对 flow matching 的训练目标提出替代：用 adversarial objective 训练 continuous-time flow model，而不是固定 MSE 准则。它也可以作为已有 flow-matching 模型的 post-training 方法。核心价值在于把判别器学习引...

FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

发表：2026-04-08 · 突破级

这篇工作针对 text-to-image diffusion model 的 RL 后训练提出了一个很具体但现实的瓶颈：随着 rollout group size 增大，偏好对齐效果会继续上涨，但在 FLUX.1-12B 这类大模型上直接扩大 rollout 会迅速被算力和吞吐拖死。问题不在于 RL 本身是否有...

End-to-End Training for Unified Tokenization and Latent Denoising

发表：2026-03-23 · 突破级

现代 latent diffusion pipeline 通常把 tokenizer 和 generator 分成两阶段：先学一个可重建的 latent space，再冻结它去训练 diffusion 或 flow model。这个流程已经变成默认配方，但它也把 latent space 的两种目标人为拆开了：...

Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models

发表：2026-03-13 · 突破级

这篇论文处理的是文本到图像模型后训练里一个已经很重要、但代价很高的问题：如何用强化学习直接优化图像质量和文本对齐。现有做法通常把扩散或流匹配采样过程拆成多步策略决策，把每一步都当作动作来估计策略梯度，但这样会带来很高的更新方差，训练既慢又容易出现 reward hacking 伪影。论文提出 Finite D...

Unified Latents (UL): How to train your latents

发表：2026-02-19 · 突破级

这篇论文关注生成式模型中的 latent representation 学习问题。作者试图统一 latent encoder、diffusion prior 与 diffusion decoder 的训练目标，避免 latent 空间先验与下游生成器彼此脱节，从而提升图像和视频生成中的压缩效率、重建质量与采样质...

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

发表：2026-02-02 · 突破级

这篇论文针对文本生成图像里一个越来越重要但常被粗糙处理的问题：模型能否在生成过程中进行动态推敲和自我修正，而不是一次性把提示词映射成像素。作者指出，现有 reasoning-augmented 图像生成方法大多依赖显式思维链，把中间推理反复解码成文本再重新喂回模型，这会带来信息压缩、延迟增加和明显的认知流程错配...

Anatomically Guided Latent Diffusion for Brain MRI Progression Modeling

发表：2026-01-21 · 突破级

问题与背景：脑 MRI 纵向进展建模对神经退行性疾病理解和个体化预测很重要，但现有方法往往结构复杂，条件注入不足，且难以保证生成结果的解剖一致性。方法/新意：这篇工作用 anatomically guided latent diffusion 建模脑 MRI 进展，在 latent 生成过程中显式引入解剖先验...

On the Design of One-step Diffusion via Shortcutting Flow Paths

发表：2025-12-03 · 突破级

one-step diffusion 一直很吸引人，因为它承诺把生成速度直接压到单步，但这条线常常把理论推导、训练配方和工程 trick 混在一起，导致 shortcut model 的设计空间既碎片化又难复用。这篇工作的重要价值不只是又拿到更低 FID，而是把 shortcutting flow paths...

Towards Precise Scaling Laws for Video Diffusion Transformers

发表：2025-06-01 · 突破级

这篇 CVPR 2025 论文不是只提出一个视频生成模型，而是系统研究 Video Diffusion Transformer 的 scaling law。对于视频生成这种高计算成本方向，模型、数据和算力怎么配比本身就是关键研究问题。它的价值在于给视频 DiT 训练提供定量指导：哪些因素更影响质量、不同规模下...