LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-02-12
arXiv: 2602.12215

收录解读

问题与背景：机器人 foundation model 往往依赖行为克隆，只模仿动作而难以吸收异构 embodied 数据中的动力学知识，导致在长时程和接触丰富任务上泛化受限。

方法/新意：LDA-1B 通过统一 embodied 数据 ingestion，把 dynamics、policy 和 visual forecasting 联合起来学，并在结构化 DINO latent 空间里进行预测，避免像素级冗余建模。作者还组建了 30k 小时统一格式的 EI-30k 数据集。

意义/放在仓库中的位置：这篇论文属于 embodied AI / robot foundation model / world model 主线。它展示了如何把 heterogeneous embodied data 真正吃进 1B 级模型，并在真实和仿真任务上获得显著收益。

局限/为何不再升一级：虽然路线很强，但仍处在机器人 foundation model 这一具体赛道，影响面还没到重排更大范围 AI 路线图的程度。

链接

论文链接