多模态生成与世界模型 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.30349

核心要点

问题/背景
AdaState 处理 streaming/autoregressive video diffusion 的一个结构性问题:first-frame KV cache 被模型过度当作静态 scene anchor,导致身份一致但动态被压制,长视频容易变成视角和场景都被锁住。
方法/机制
方法上,论文用 adaptive state 替代固定 first-frame anchor。这个 hidden latent 和视频内容一起 denoise,但不被渲染;每个 chunk 结束后,它的 clean KV 被写回 anchor position,成为下一步可演化的 scene reference。
结果/证据
这个设计把 denoising 变成 recurrence:状态转移由扩散模型自身的 iterative refinement 执行,KV cache 负责携带状态,不需要额外 RNN/SSM/gating module。作者还引入 horizon-weighted DMD,让训练更重视依赖长期状态的后续帧。
收录价值
收录价值在于它提出了一个可复用的长视频生成状态管理 primitive:从 static anchor 到 self-evolving hidden anchor,对 streaming video generation、world-consistent video 和 latent-state generation 都有直接方法价值。

收录解读

AdaState 处理 streaming/autoregressive video diffusion 的一个结构性问题:first-frame KV cache 被模型过度当作静态 scene anchor,导致身份一致但动态被压制,长视频容易变成视角和场景都被锁住。

方法上,论文用 adaptive state 替代固定 first-frame anchor。这个 hidden latent 和视频内容一起 denoise,但不被渲染;每个 chunk 结束后,它的 clean KV 被写回 anchor position,成为下一步可演化的 scene reference。

这个设计把 denoising 变成 recurrence:状态转移由扩散模型自身的 iterative refinement 执行,KV cache 负责携带状态,不需要额外 RNN/SSM/gating module。作者还引入 horizon-weighted DMD,让训练更重视依赖长期状态的后续帧。

收录价值在于它提出了一个可复用的长视频生成状态管理 primitive:从 static anchor 到 self-evolving hidden anchor,对 streaming video generation、world-consistent video 和 latent-state generation 都有直接方法价值。

论文摘要

AdaState identifies a structural first-frame anchor bias in autoregressive video diffusion: the first-frame key-value cache acts as a privileged static scene reference, suppressing motion and scene progression. The method replaces this static anchor with an adaptive hidden latent state that is denoised with each chunk, carried through the KV cache, and never rendered, creating a recurrent scene reference without an external module.

相关论文

链接