MemoryVLA++: Temporal Modeling via Memory and Imagination in Vision-Language-Action Models

Hao Shi; Weiye Li; Bin Xie; Yulin Wang; Renping Zhou; Tiancai Wang; Xiangyu Zhang; Ping Luo; Gao Huang

机器人与具身智能突破级暂无讲解视频

发表时间: 2026-06-08
arXiv: 2606.09827

核心要点

问题/背景: MemoryVLA++ 针对 VLA 的核心短板：多数策略主要依赖当前观察，对需要过去交互记忆和未来状态想象的长程操作任务表现不足。
方法/机制: 方法上，它把当前观察编码成 perceptual/cognitive tokens 作为 working memory，再通过 Perceptual-Cognitive Memory Bank 检索历史上下文，并用 latent world model 想象未来状态，最后由 diffusion action expert 生成动作序列。
结果/证据: 正式收录价值在于它把认知启发的 working memory、episodic memory 和 imagination 显式做进 VLA temporal modeling，而不是只扩大模型或堆历史帧。实验覆盖多个仿真基准和真实机器人任务，体现了可复用的长程操作架构。
收录价值: 它不是更高一级，因为仍是预印本，且与同期 WAM/VLA 记忆方法存在竞争；长期价值取决于是否能在更多机器人平台和未见长程任务中稳定复现。

完整收录解读

MemoryVLA++ 针对 VLA 的核心短板：多数策略主要依赖当前观察，对需要过去交互记忆和未来状态想象的长程操作任务表现不足。

方法上，它把当前观察编码成 perceptual/cognitive tokens 作为 working memory，再通过 Perceptual-Cognitive Memory Bank 检索历史上下文，并用 latent world model 想象未来状态，最后由 diffusion action expert 生成动作序列。

正式收录价值在于它把认知启发的 working memory、episodic memory 和 imagination 显式做进 VLA temporal modeling，而不是只扩大模型或堆历史帧。实验覆盖多个仿真基准和真实机器人任务，体现了可复用的长程操作架构。

它不是更高一级，因为仍是预印本，且与同期 WAM/VLA 记忆方法存在竞争；长期价值取决于是否能在更多机器人平台和未见长程任务中稳定复现。

原始摘要与中文对照

中文对照翻译

MemoryVLA++：视觉-语言-动作模型中通过记忆与想象进行时间建模。MemoryVLA++ 为 VLA 模型配备了工作记忆、一个感知-认知记忆库以及一个用于未来状态想象的潜在世界模型，从而改进了跨越仿真和真实机器人任务的长周期机器人操作。

原始摘要

MemoryVLA++ equips VLA models with working memory, a perceptual-cognitive memory bank, and a latent world model for future-state imagination, improving long-horizon robotic manipulation across simulation and real robot tasks.

链接

论文链接论文链接项目

核心要点

原始摘要与中文对照

中文对照翻译

原始摘要

相关论文

链接