Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-26
arXiv: 2603.25716

收录解读

视频世界模型已经能模拟大量场景，但现有记忆机制大多默认环境近似静态，对动态主体暂时离开视野后再出现的情况处理很差，常见问题是主体冻结、形变或直接消失。这个问题本质上不是普通长视频建模，而是世界模型是否真正学会了对动态对象进行持续记忆。

这篇工作把问题明确成 hybrid memory：背景需要像档案一样稳定存储，运动主体则需要像跟踪器一样维持连续状态。作者为此构建了 HM-World 数据集，并提出 HyDRA 记忆架构，把记忆压缩成 token，再用时空相关性驱动的检索去取回与当前生成最相关的动态线索，从而维持遮挡、出画和回画场景中的主体一致性。

它值得收录，不是因为又提升了一个视频分数，而是因为它把动态主体记忆从模糊能力项提升成了显式训练目标、数据构造方式和可复用模块接口。这对视频世界模型、交互式生成以及更广义的长期视觉记忆建模都有外溢价值。

它现在还不到更高一级，主要因为证据仍集中在作者自建任务设定和 preprint 阶段；Hybrid Memory 是否会成为更广视频生成或视觉世界模型的标准接口，还需要跨数据集、跨架构复现来确认。

链接

论文链接