强化学习
突破级
有讲解视频
收录解读
这篇论文关注 embodied world model 里一个非常具体但很关键的问题:World Action Models 的收益,到底主要来自测试时显式未来想象,还是来自训练时的视频建模信号。它不是单纯继续堆更慢的 imagine-then-execute,而是在问这条路线里真正有效的因果因素是什么。
作者提出 Fast-WAM,在训练阶段保留视频共训练,但在推理阶段跳过未来预测,并据此对视频共训练与测试时 imagination 的作用做了受控拆分。结果显示,去掉测试时未来想象后模型仍能保持竞争力,同时延迟降到 190ms,比传统 imagine-then-execute WAM 快四倍以上。
它值得正式收录,因为这是典型的机制澄清型论文:不是只报成功率,而是明确回答 active area 里的核心设计问题,并给出对后续 world action model 设计有直接价值的结论。对仓库里的 multimodal/world-model/robotics 主线来说,这类 clarification 条目很重要。
它没有升到更高等级,是因为影响范围仍然主要限于 WAM/VLA 这一子路线,虽然结论很有用,但还不足以成为更广泛 embodied intelligence 的总蓝图。