多模态基础模型 突破级 暂无讲解视频
发表时间
2026-03-26
arXiv
2603.25716

收录解读

视频世界模型已经能模拟大量场景,但现有记忆机制大多默认环境近似静态,对动态主体暂时离开视野后再出现的情况处理很差,常见问题是主体冻结、形变或直接消失。这个问题本质上不是普通长视频建模,而是世界模型是否真正学会了对动态对象进行持续记忆。

这篇工作把问题明确成 hybrid memory:背景需要像档案一样稳定存储,运动主体则需要像跟踪器一样维持连续状态。作者为此构建了 HM-World 数据集,并提出 HyDRA 记忆架构,把记忆压缩成 token,再用时空相关性驱动的检索去取回与当前生成最相关的动态线索,从而维持遮挡、出画和回画场景中的主体一致性。

它值得收录,不是因为又提升了一个视频分数,而是因为它把动态主体记忆从模糊能力项提升成了显式训练目标、数据构造方式和可复用模块接口。这对视频世界模型、交互式生成以及更广义的长期视觉记忆建模都有外溢价值。

它现在还不到更高一级,主要因为证据仍集中在作者自建任务设定和 preprint 阶段;Hybrid Memory 是否会成为更广视频生成或视觉世界模型的标准接口,还需要跨数据集、跨架构复现来确认。

链接