EgoSim: Egocentric World Simulator for Embodied Interaction Generation

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.01001

收录解读

egocentric world simulation 是 embodied AI 很缺的一块：已有模拟器要么缺显式 3D grounding，导致视角变化后结构漂移；要么把场景视作静态背景，无法持续更新 world state，因此不适合多阶段互动和具身操作。EgoSim 正是在补这一层缺口。

论文把 3D scene 建模为可更新的 world state，并用两个模块完成闭环模拟：Geometry-action-aware Observation Simulation 负责从状态和动作生成观察结果，Interaction-aware State Updating 负责在交互后更新底层 3D scene state。作者还给出一条可扩展数据流水线，从 in-the-wild monocular egocentric videos 中抽取点云、相机轨迹和 embodiment actions，并用 EgoCap 做低成本真实采集。

这篇工作值得收录，因为它不是又一个视频生成器，而是把 egocentric embodied simulation 做成了带 persistent 3D state 的闭环世界模型接口。这种‘观察生成 + 状态更新’的结构，对 embodied world models、机器人模拟数据合成、cross-embodiment transfer 和 interaction generation 都有明显外溢。

它没有升到更高一级，是因为当前影响仍集中在 egocentric interaction simulation 这条子线，且需要更多外部系统将其真正作为通用 world simulator 复用。现在它已经足够强，但还没到改写更广 multimodal world-model 蓝图的程度。

链接

论文链接