Zero-shot World Models Are Developmentally Efficient Learners

生成模型与世界模型突破级暂无讲解视频

发表时间: 2026-04-11
arXiv: 2604.10333

收录解读

这篇论文从儿童早期物理理解出发，提出 Zero-shot Visual World Model（ZWM）假说：儿童能从极少第一人称经验中形成深度、运动、对象连续性和交互等能力，说明有效 world model 可能不需要大量任务监督，而是依赖稀疏、时间因子化的预测和因果推断。

ZWM 的三条原则是：把 appearance 和 dynamics 解耦的 sparse temporally-factored predictor；通过 approximate causal inference 做 zero-shot estimation；组合多个 inference 形成更复杂能力。作者用单个儿童的第一人称经验训练，并测试多个未训练物理场景理解任务。

它值得收录，因为它把 developmental learning、causal inference 和 world model 结合成一个清晰的 AI 研究假说。对高效世界模型、具身学习和 NeuroAI/认知启发建模，它提供了不同于纯大数据视频预测的路线。

局限在于它更像计算认知和世界模型假说验证，离大规模生成式世界模型或机器人控制系统还有距离；因此作为概念和方法上有 AI 溢出的突破性 world-model 工作收录。

链接

论文链接