强化学习
突破级
有讲解视频
收录解读
这篇论文处理的是一个很实在的问题:很多在 MLLM 上加 reasoning supervision 的方法,迁移到 VLA 后并不能稳定提升机器人表现,甚至会伤害动作质量。作者把症结归因于语言推理和低层动作之间的接口没有真正对齐。
RoboAlign 的核心做法是先用零样本自然语言推理产生动作 token,再通过 RL 对这些推理进行校正,使语言侧的决策过程能够更可靠地映射到扩散式动作头。重点不是再堆 VQA 监督,而是把 reasoning 直接变成动作对齐机制。
这条路线命中仓库当前重点的 `VLA / embodied reasoning / test-time adaptation`。它展示了一种更系统的语言-动作桥接方案,且在 LIBERO、CALVIN 和 real-world 上都给出了明显增益,因此不只是 benchmark trick。
它暂时还不是更高一级,因为当前验证仍围绕特定 VLA 训练配方和 benchmark 体系展开。要成为更通用的范式,还需要在更广机器人形态、动作表示和长期部署 setting 上继续验证。