生成建模与扩散
突破级
暂无讲解视频
核心要点
- 问题/背景
- 长程 autoregressive video diffusion 的核心瓶颈之一是 KV cache 内存和延迟。
- 方法/机制
- VideoMLA 将 per-head key/value 替换为共享低秩内容 latent 和 decoupled 3D-RoPE positional key,大幅降低缓存成本,并分析为什么低秩 latent attention 在视频扩散中可行。
- 结果/证据
- 它值得收录,因为视频世界模型和长视频生成都依赖分钟级 rollout,KV cache 结构优化是基础系统 primitive。
- 收录价值
- 按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
论文摘要
VideoMLA 通过应用多头潜层注意力机制到自回归视频扩散模型,将每标记的 KV 内存减少了 92.7%,适用于分钟级别的视频滚动。
英文原文
VideoMLA applies Multi-Head Latent Attention to autoregressive video diffusion, reducing per-token KV memory by 92.7% for minute-scale video rollouts.