生成建模与扩散 突破级 暂无讲解视频
发表时间
2026-05-28
arXiv
2605.30351

核心要点

问题/背景
长程 autoregressive video diffusion 的核心瓶颈之一是 KV cache 内存和延迟。
方法/机制
VideoMLA 将 per-head key/value 替换为共享低秩内容 latent 和 decoupled 3D-RoPE positional key,大幅降低缓存成本,并分析为什么低秩 latent attention 在视频扩散中可行。
结果/证据
它值得收录,因为视频世界模型和长视频生成都依赖分钟级 rollout,KV cache 结构优化是基础系统 primitive。
收录价值
按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
完整收录解读

长程 autoregressive video diffusion 的核心瓶颈之一是 KV cache 内存和延迟。

VideoMLA 将 per-head key/value 替换为共享低秩内容 latent 和 decoupled 3D-RoPE positional key,大幅降低缓存成本,并分析为什么低秩 latent attention 在视频扩散中可行。

它值得收录,因为视频世界模型和长视频生成都依赖分钟级 rollout,KV cache 结构优化是基础系统 primitive。

按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

VideoMLA 通过应用多头潜层注意力机制到自回归视频扩散模型,将每标记的 KV 内存减少了 92.7%,适用于分钟级别的视频滚动。

英文原文

VideoMLA applies Multi-Head Latent Attention to autoregressive video diffusion, reducing per-token KV memory by 92.7% for minute-scale video rollouts.

相关论文

链接