DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

生成建模与扩散突破级暂无讲解视频

发表时间: 2026-05-29
arXiv: 2605.31336

核心要点

问题/背景: DecMem 面向可控世界模型/视频生成中的长期一致性瓶颈：如何在 minute-long generation 中保持细粒度时空一致。
方法/机制: 方法把记忆拆成 Sparse Global Memory 和 Anchored Local Memory，分别解决全局历史访问效率和局部外推稳定性，并用 attention dispersion 分析解释 naive memory 的失败。
结果/证据: 收录价值在于它把 world generation 的长期一致性问题明确转化为 memory architecture 问题，可外溢到视频世界模型、交互式环境生成和长时序生成系统。
收录价值: 风险与限制：当前仍是 arXiv 初版，核心结论需要跨模型、跨环境和真实部署场景的进一步复现；因此分级为 breakthrough，而不是 disruptive/paradigm。

完整收录解读

DecMem 面向可控世界模型/视频生成中的长期一致性瓶颈：如何在 minute-long generation 中保持细粒度时空一致。

方法把记忆拆成 Sparse Global Memory 和 Anchored Local Memory，分别解决全局历史访问效率和局部外推稳定性，并用 attention dispersion 分析解释 naive memory 的失败。

收录价值在于它把 world generation 的长期一致性问题明确转化为 memory architecture 问题，可外溢到视频世界模型、交互式环境生成和长时序生成系统。

风险与限制：当前仍是 arXiv 初版，核心结论需要跨模型、跨环境和真实部署场景的进一步复现；因此分级为 breakthrough，而不是 disruptive/paradigm。

论文摘要

DecMem 提出了一种精细化、可学习、可扩展的记忆架构，用于长时间一致的世界生成。它识别出传统可学习记忆中的低效率和注意力分散问题，并引入稀疏全局记忆以高效访问全局历史，以及锚定局部记忆以实现稳定的高质量外推，从而实现细粒度可控的长视频生成。

英文原文

DecMem proposes a fine-grained, learnable, scalable memory architecture for long-horizon consistent world generation. It identifies inefficiency and attention dispersion as limitations of naive learnable memory, and introduces Sparse Global Memory for efficient access to global history plus Anchored Local Memory for stable high-quality extrapolation, enabling minute-level controllable long video generation.

链接

论文链接论文链接项目代码相关链接

核心要点

论文摘要

相关论文

链接