Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

发表:2026-05-27 · 突破级

交互式视频 world models 过去多默认单一控制信号,但游戏、机器人和多主体仿真都需要多个 agent 在同一环境中同时行动。 Gamma-World 的核心是把多 agent identity 和交互建模进生成式 world model:Simplex Rotary Agent Encoding 让...

SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models

发表:2026-05-22 · 突破级

SCOPE 处理 FPS playable world models 的控制难题:高频、重叠的控制信号会同时影响局部武器区域和全局相机/移动,普通全局 action injection 容易干扰无关区域。 论文观察到 FPS actions 具有空间选择性,离散动作如开火和换弹主要影响 weapon scope...

WorldKV: Efficient World Memory with World Retrieval and Compression

发表:2026-05-21 · 突破级

WorldKV 针对 action-conditioned video/world generation 的核心瓶颈:完整 KV cache 能保持场景一致性,但 rollout 变长后内存和注意力成本线性增长;滑窗推理则会丢失长期世界一致性。 方法包含 World Retrieval 和 World Comp...

Rethinking Cross-Layer Information Routing in Diffusion Transformers

发表:2026-05-21 · 突破级

这篇论文聚焦 Diffusion Transformers 中长期被默认继承的 residual stream,指出跨层信息流在深度和 denoising timestep 上存在幅值膨胀、梯度衰减和 block redundancy。 作者提出 Diffusion-Adaptive Routing (DAR)...

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

发表:2026-05-20 · 突破级

Lens 关注 foundational text-to-image models 的训练效率,而不是单一 benchmark 或局部模块改进。 论文系统重构训练 recipe,涉及高质量 dense captions、多分辨率训练、语义 VAE、强化学习优化和蒸馏等环节。 这种工作对生成模型基础设施有价值,因...

Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

发表:2026-05-14 · 突破级

这篇论文把复杂视觉生成从单步 prompt-to-image 推向闭环、可验证的多步推理生成。CLVR 将视觉语言规划、像素级扩散生成和 step-level verification 串成一个闭环。 方法上,它用自动数据引擎生成带验证的推理轨迹,用 Proxy Prompt RL 解决长上下文优化与因果归因问...

Asymmetric Flow Models

发表:2026-05-14 · 突破级

AsymFlow 处理的是高维 flow / diffusion 生成里的结构性瓶颈:在 pixel space 预测 full-dimensional velocity 时,模型必须处理高维噪声,plain transformer 的内部表示容易被噪声维度压垮。 论文提出 rank-asymmetric ve...

Flow-OPD: On-Policy Distillation for Flow Matching Models

发表:2026-05-13 · 突破级

这篇论文把 on-policy distillation 引入 flow matching models。它的价值在于把生成模型 distillation 从离线 teacher imitation 推向更接近当前模型采样分布的训练。 Flow matching 已经是扩散/生成建模的重要替代路线,蒸馏效率直接...

G-Zero: Self-Play for Open-Ended Generation from Zero Data

发表:2026-05-12 · 突破级

这篇论文的核心吸引力是把 self-play 引入开放式生成,并强调 zero-data bootstrapping。它不是普通数据增强,而是试图让生成系统通过自博弈产生可扩展训练信号。 如果这个方向成立,生成模型可以减少对静态数据集和人工偏好标注的依赖,转向更开放的任务生成、评估和改进循环。 它值得正式收录...

ELF: Embedded Language Flows

发表:2026-05-11 · 突破级

ELF proposes Embedded Language Flows, a diffusion/flow language-modeling approach that operates primarily in continuous embedding space rather than over dis...

Sub-JEPA: Subspace Gaussian Regularization for Stable End-to-End World Models

发表:2026-05-10 · 突破级

这篇 arXiv 论文直接接在 LeWorldModel 之后,处理 JEPA 世界模型从像素端到端训练的核心问题:表示崩溃与过强先验之间的 bias-variance tradeoff。 LeWM 用全 latent 空间的各向同性高斯正则防止 collapse,但作者指出控制任务的 latent 往往落在高...

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

发表:2026-04-13 · 突破级

问题与背景:连续扩散在图像等模态上很强,但在语言建模中长期落后于离散扩散和自回归模型,核心难点来自稀疏 token 空间、评价方式不统一和训练设计不足。 方法与新意:LangFlow 把 embedding-space diffusion language models 与 Flow Matching 通过 B...

Continuous Adversarial Flow Models

发表:2026-04-13 · 突破级

这篇论文针对 flow matching 的训练目标提出替代:用 adversarial objective 训练 continuous-time flow model,而不是固定 MSE 准则。它也可以作为已有 flow-matching 模型的 post-training 方法。 核心价值在于把判别器学习引...

End-to-End Training for Unified Tokenization and Latent Denoising

发表:2026-03-23 · 突破级

现代 latent diffusion pipeline 通常把 tokenizer 和 generator 分成两阶段:先学一个可重建的 latent space,再冻结它去训练 diffusion 或 flow model。这个流程已经变成默认配方,但它也把 latent space 的两种目标人为拆开了:...

Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models

发表:2026-03-13 · 突破级

这篇论文处理的是文本到图像模型后训练里一个已经很重要、但代价很高的问题:如何用强化学习直接优化图像质量和文本对齐。现有做法通常把扩散或流匹配采样过程拆成多步策略决策,把每一步都当作动作来估计策略梯度,但这样会带来很高的更新方差,训练既慢又容易出现 reward hacking 伪影。 论文提出 Finite D...

Unified Latents (UL): How to train your latents

发表:2026-02-19 · 突破级

这篇论文关注生成式模型中的 latent representation 学习问题。作者试图统一 latent encoder、diffusion prior 与 diffusion decoder 的训练目标,避免 latent 空间先验与下游生成器彼此脱节,从而提升图像和视频生成中的压缩效率、重建质量与采样质...

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

发表:2026-02-02 · 突破级

这篇论文针对文本生成图像里一个越来越重要但常被粗糙处理的问题:模型能否在生成过程中进行动态推敲和自我修正,而不是一次性把提示词映射成像素。作者指出,现有 reasoning-augmented 图像生成方法大多依赖显式思维链,把中间推理反复解码成文本再重新喂回模型,这会带来信息压缩、延迟增加和明显的认知流程错配...

Anatomically Guided Latent Diffusion for Brain MRI Progression Modeling

发表:2026-01-21 · 突破级

问题与背景:脑 MRI 纵向进展建模对神经退行性疾病理解和个体化预测很重要,但现有方法往往结构复杂,条件注入不足,且难以保证生成结果的解剖一致性。 方法/新意:这篇工作用 anatomically guided latent diffusion 建模脑 MRI 进展,在 latent 生成过程中显式引入解剖先验...

On the Design of One-step Diffusion via Shortcutting Flow Paths

发表:2025-12-03 · 突破级

one-step diffusion 一直很吸引人,因为它承诺把生成速度直接压到单步,但这条线常常把理论推导、训练配方和工程 trick 混在一起,导致 shortcut model 的设计空间既碎片化又难复用。 这篇工作的重要价值不只是又拿到更低 FID,而是把 shortcutting flow paths...

Towards Precise Scaling Laws for Video Diffusion Transformers

发表:2025-06-01 · 突破级

这篇 CVPR 2025 论文不是只提出一个视频生成模型,而是系统研究 Video Diffusion Transformer 的 scaling law。对于视频生成这种高计算成本方向,模型、数据和算力怎么配比本身就是关键研究问题。 它的价值在于给视频 DiT 训练提供定量指导:哪些因素更影响质量、不同规模下...