DreamControl-v2: Simpler and Scalable Autonomous Humanoid Skills via Trainable Guided Diffusion Priors

强化学习突破级暂无讲解视频

发表时间: 2026-03-31
arXiv: 2604.00202

收录解读

humanoid loco-manipulation 仍然面临一个老问题：单靠 RL 很难稳定学到长程、互动密集的技能，而仅靠 imitation 或 motion prior 又难以兼顾机器人本体约束与真实执行鲁棒性。DreamControl 这一系工作已经证明 human-motion diffusion prior 对 RL 有帮助，但原始流程仍然带着较重的人为筛选和手工干预。DreamControl-v2 的目标就是把这条路线做得更简单、更可扩展。

论文的核心改动是直接在 humanoid motion space 中训练 guided diffusion model，并把多种 human 与 robot 数据统一到一个 embodiment space。这样既扩大了可表达技能范围，也移除了对手工过滤和繁琐 prior 清洗的依赖。作者还强调 reference trajectory generation 的规模化对于后续 RL policy 稳定性非常关键，从而把 diffusion prior 从静态先验推进成可训练、可扩展的 skill-generation 组件。

这篇工作值得收录，因为它给 humanoid autonomous skill learning 提供了更清晰的训练 recipe：用 trainable guided diffusion prior 作为可扩展的 reference generator，再驱动 downstream RL。这个模式对具身技能学习、先验注入和人机数据混合训练都有持续参考价值，不只是一个 demo 系统。

它没有升到更高一级，是因为当前证据仍主要围绕 DreamControl 系路线和 Unitree G1 等平台展开，尚未证明这套方法会成为更广 humanoid 技能学习的默认蓝图。它足够强，但还不到路线重写。

链接

论文链接