生成建模与扩散
突破级
暂无讲解视频
收录解读
WorldKV 针对 action-conditioned video/world generation 的核心瓶颈:完整 KV cache 能保持场景一致性,但 rollout 变长后内存和注意力成本线性增长;滑窗推理则会丢失长期世界一致性。
方法包含 World Retrieval 和 World Compression:前者把被逐出的 KV chunks 存到 GPU/CPU 记忆并按 camera/action correspondence 检索回当前 attention window,后者用 key-key similarity 压缩冗余 token。
在 Matrix-Game-2.0 和 LingBot-World-Fast 上,WorldKV 在无需微调的情况下接近或超过 full-KV 的记忆保真度,并获得约 2 倍吞吐。
它值得正式收录,因为它把长时世界模型的一致性问题具体化为可操作的 KV memory retrieval/compression 接口,对实时交互世界生成、机器人仿真和 embodied world model 都有直接方法价值。