WorldKV: Efficient World Memory with World Retrieval and Compression

生成建模与扩散突破级暂无讲解视频

发表时间: 2026-05-21
arXiv: 2605.22718

收录解读

WorldKV 针对 action-conditioned video/world generation 的核心瓶颈：完整 KV cache 能保持场景一致性，但 rollout 变长后内存和注意力成本线性增长；滑窗推理则会丢失长期世界一致性。

方法包含 World Retrieval 和 World Compression：前者把被逐出的 KV chunks 存到 GPU/CPU 记忆并按 camera/action correspondence 检索回当前 attention window，后者用 key-key similarity 压缩冗余 token。

在 Matrix-Game-2.0 和 LingBot-World-Fast 上，WorldKV 在无需微调的情况下接近或超过 full-KV 的记忆保真度，并获得约 2 倍吞吐。

它值得正式收录，因为它把长时世界模型的一致性问题具体化为可操作的 KV memory retrieval/compression 接口，对实时交互世界生成、机器人仿真和 embodied world model 都有直接方法价值。

链接

论文链接项目代码