VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

生成建模与扩散突破级暂无讲解视频

发表时间: 2026-05-28
arXiv: 2605.30351

核心要点

问题/背景: 长程 autoregressive video diffusion 的核心瓶颈之一是 KV cache 内存和延迟。
方法/机制: VideoMLA 将 per-head key/value 替换为共享低秩内容 latent 和 decoupled 3D-RoPE positional key，大幅降低缓存成本，并分析为什么低秩 latent attention 在视频扩散中可行。
结果/证据: 它值得收录，因为视频世界模型和长视频生成都依赖分钟级 rollout，KV cache 结构优化是基础系统 primitive。
收录价值: 按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

完整收录解读

长程 autoregressive video diffusion 的核心瓶颈之一是 KV cache 内存和延迟。

VideoMLA 将 per-head key/value 替换为共享低秩内容 latent 和 decoupled 3D-RoPE positional key，大幅降低缓存成本，并分析为什么低秩 latent attention 在视频扩散中可行。

它值得收录，因为视频世界模型和长视频生成都依赖分钟级 rollout，KV cache 结构优化是基础系统 primitive。

按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

VideoMLA 通过应用多头潜层注意力机制到自回归视频扩散模型，将每标记的 KV 内存减少了 92.7%，适用于分钟级别的视频滚动。

英文原文

VideoMLA applies Multi-Head Latent Attention to autoregressive video diffusion, reducing per-token KV memory by 92.7% for minute-scale video rollouts.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接