机器人与具身智能
突破级
暂无讲解视频
核心要点
- 问题/背景
- VLA 模型在静态 manipulation 上泛化较好,但目标物体移动时,观察到动作执行之间的延迟会让当前帧决策失效。
- 方法/机制
- AHEAD 在 frozen VLA 外加 motion-aware latent world model,预测未来视觉 patch tokens,再做 predict-then-act,从而处理动态目标抓取。
- 结果/证据
- 它值得收录,因为这是把 latent world model 作为 VLA runtime wrapper 的清晰模式,直接面向真实机器人动态环境。
- 收录价值
- 按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
论文摘要
AHEAD 通过引入一个潜在预测世界模型来增强冻结的 VLA 模型,该模型预测执行延迟期间移动对象时未来的补丁令牌,从而实现动态操作。
英文原文
AHEAD augments frozen VLA models with a latent predictive world model that forecasts future patch tokens for dynamic manipulation when objects move during execution latency.