智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-02-12
arXiv
2602.12099

收录解读

问题与背景:Vision-Language-Action 模型在当前观测上直接预测动作,往往缺乏对未来状态的显式建模,导致长程规划和泛化能力不足。视频世界模型则天然具备时空推演能力,但如何稳定迁移到 VLA 学习仍是开放问题。

方法/新意:GigaBrain-0.5M* 把 world model-based reinforcement learning 用作 VLA 训练信号来源,让策略从预测未来的表征中获益,而不是仅靠当前帧到动作的直接映射。这使得 world model 从旁路模块变成了策略学习的核心教师。

意义/放在仓库中的位置:它属于 world model -> policy 的主线,和 Causal-JEPA、World-VLA-Loop、PerpetualWonder 处在同一方向。对于理解生成世界模型如何反哺具身智能,这是一篇值得跟的强论文。

局限/为何不再升一级:目前仍以特定 VLA 训练框架为主,还没到统一整条具身学习路线的程度。更像是强路线论文,而不是决定性范式重排。

链接