生成建模与扩散 突破级 暂无讲解视频
发表时间
2026-05-27
arXiv
2605.28816

收录解读

交互式视频 world models 过去多默认单一控制信号,但游戏、机器人和多主体仿真都需要多个 agent 在同一环境中同时行动。

Gamma-World 的核心是把多 agent identity 和交互建模进生成式 world model:Simplex Rotary Agent Encoding 让 agent 既可区分又保持置换对称,Sparse Hub Attention 用 hub token 降低跨 agent attention 成本。

为了实时交互,论文还把 full-context diffusion teacher 蒸馏为带 KV cache 的 causal student,实现 action-responsive rollout。

它值得收录,因为它把 world model 从 single-agent video control 推向 multi-agent interactive simulation,并给出 agent identity、跨主体通信和实时生成三类可复用原语。

链接