收录解读
egocentric world simulation 是 embodied AI 很缺的一块:已有模拟器要么缺显式 3D grounding,导致视角变化后结构漂移;要么把场景视作静态背景,无法持续更新 world state,因此不适合多阶段互动和具身操作。EgoSim 正是在补这一层缺口。
论文把 3D scene 建模为可更新的 world state,并用两个模块完成闭环模拟:Geometry-action-aware Observation Simulation 负责从状态和动作生成观察结果,Interaction-aware State Updating 负责在交互后更新底层 3D scene state。作者还给出一条可扩展数据流水线,从 in-the-wild monocular egocentric videos 中抽取点云、相机轨迹和 embodiment actions,并用 EgoCap 做低成本真实采集。
这篇工作值得收录,因为它不是又一个视频生成器,而是把 egocentric embodied simulation 做成了带 persistent 3D state 的闭环世界模型接口。这种‘观察生成 + 状态更新’的结构,对 embodied world models、机器人模拟数据合成、cross-embodiment transfer 和 interaction generation 都有明显外溢。
它没有升到更高一级,是因为当前影响仍集中在 egocentric interaction simulation 这条子线,且需要更多外部系统将其真正作为通用 world simulator 复用。现在它已经足够强,但还没到改写更广 multimodal world-model 蓝图的程度。