BAT: Balancing Agility and Stability via Online Policy Switching for Long-Horizon Whole-Body Humanoid Control

强化学习突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.01064

收录解读

长时程 humanoid whole-body control 的难点不只是在单个 controller 上再堆一点性能，而是在 agility、stability 与 precision 三者之间始终存在结构性冲突。现有方法通常要么走 coupled whole-body policy，强调全局协调；要么走 decoupled modular policy，强调局部精度，但缺乏稳定的在线整合机制。

BAT 提出在线 policy switching 框架，在两类互补的 whole-body RL controllers 之间动态切换。它由两个核心模块组成：一是用 hierarchical RL 学到的 switching policy，并结合 sliding-horizon policy pre-evaluation 的 expert guidance；二是 option-aware VQ-VAE，根据离散 motion token 序列预测 option preference。最终系统通过 confidence-weighted fusion 做在线决策，在不同 motion context 下平衡 agility 与 stability。

这篇工作值得收录，因为它抓住了 humanoid control 中一个很耐久的问题：不是哪种单一路线绝对更强，而是如何把互补 controller 变成真正可在线组合的长时控制机制。它对 whole-body loco-manipulation、online control arbitration 和长时程机器人行为组织都有清晰的复用价值。

它没有升到更高一级，是因为当前方法仍主要服务于 humanoid whole-body control 这条子线，虽然工程和方法价值都很强，但还没有达到重写更广泛 embodied control 训练范式的程度。它是强机器人方法论文，但外溢范围仍相对聚焦。

链接

论文链接