强化学习 突破级 暂无讲解视频
发表时间
2026-03-31
arXiv
2604.00202

收录解读

humanoid loco-manipulation 仍然面临一个老问题:单靠 RL 很难稳定学到长程、互动密集的技能,而仅靠 imitation 或 motion prior 又难以兼顾机器人本体约束与真实执行鲁棒性。DreamControl 这一系工作已经证明 human-motion diffusion prior 对 RL 有帮助,但原始流程仍然带着较重的人为筛选和手工干预。DreamControl-v2 的目标就是把这条路线做得更简单、更可扩展。

论文的核心改动是直接在 humanoid motion space 中训练 guided diffusion model,并把多种 human 与 robot 数据统一到一个 embodiment space。这样既扩大了可表达技能范围,也移除了对手工过滤和繁琐 prior 清洗的依赖。作者还强调 reference trajectory generation 的规模化对于后续 RL policy 稳定性非常关键,从而把 diffusion prior 从静态先验推进成可训练、可扩展的 skill-generation 组件。

这篇工作值得收录,因为它给 humanoid autonomous skill learning 提供了更清晰的训练 recipe:用 trainable guided diffusion prior 作为可扩展的 reference generator,再驱动 downstream RL。这个模式对具身技能学习、先验注入和人机数据混合训练都有持续参考价值,不只是一个 demo 系统。

它没有升到更高一级,是因为当前证据仍主要围绕 DreamControl 系路线和 Unitree G1 等平台展开,尚未证明这套方法会成为更广 humanoid 技能学习的默认蓝图。它足够强,但还不到路线重写。

链接