强化学习 突破级 暂无讲解视频
发表时间
2026-04-01
arXiv
2604.01064

收录解读

长时程 humanoid whole-body control 的难点不只是在单个 controller 上再堆一点性能,而是在 agility、stability 与 precision 三者之间始终存在结构性冲突。现有方法通常要么走 coupled whole-body policy,强调全局协调;要么走 decoupled modular policy,强调局部精度,但缺乏稳定的在线整合机制。

BAT 提出在线 policy switching 框架,在两类互补的 whole-body RL controllers 之间动态切换。它由两个核心模块组成:一是用 hierarchical RL 学到的 switching policy,并结合 sliding-horizon policy pre-evaluation 的 expert guidance;二是 option-aware VQ-VAE,根据离散 motion token 序列预测 option preference。最终系统通过 confidence-weighted fusion 做在线决策,在不同 motion context 下平衡 agility 与 stability。

这篇工作值得收录,因为它抓住了 humanoid control 中一个很耐久的问题:不是哪种单一路线绝对更强,而是如何把互补 controller 变成真正可在线组合的长时控制机制。它对 whole-body loco-manipulation、online control arbitration 和长时程机器人行为组织都有清晰的复用价值。

它没有升到更高一级,是因为当前方法仍主要服务于 humanoid whole-body control 这条子线,虽然工程和方法价值都很强,但还没有达到重写更广泛 embodied control 训练范式的程度。它是强机器人方法论文,但外溢范围仍相对聚焦。

链接