机器人与具身智能
突破级
暂无讲解视频
核心要点
- 问题/背景
- 现有 World Action Models 常用固定长度 action chunks,但语言描述的是语义目标和事件,视觉则连续演化,二者粒度不匹配。
- 方法/机制
- WALL-WM 把 semantically coherent action events 作为学习原子,将 WAM 从 chunk-centric optimization 转向 event-grounded VLA pretraining。
- 结果/证据
- 它值得收录,因为这是 world action model 的问题重定义,有望影响 embodied world models 和机器人动作表示。
- 收录价值
- 按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
论文摘要
WALL-WM 迁移世界行动模型,使其从固定的动作片段转向基于事件的 VLA 预训练,利用语义连贯的动作事件作为原子单元。
英文原文
WALL-WM shifts World Action Models from fixed action chunks to event-grounded VLA pretraining using semantically coherent action events as the atomic unit.