怎样让机器人抓住飞来的球？CMU用4.9M外挂打破大模型控制延迟 | DAST Papers

对应论文

Intercepting the Future: Latent-Space Predictive World Model for Dynamic VLA Manipulation

视频简介

VLA 模型在静态 manipulation 上泛化较好，但目标物体移动时，观察到动作执行之间的延迟会让当前帧决策失效。 AHEAD 在 frozen VLA 外加 motion-aware latent world model，预测未来视觉 patch tokens，再做 predict-then-act，从而处理动态目标抓取。它值得收录，因为这是把 latent world model 作为 VLA runtime wrapper 的清晰模式，直接面向真实机器人动态环境。按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

外部视频链接

论文链接

论文详情页