RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

强化学习突破级有讲解视频

收录解读

这篇论文处理的是一个很实在的问题：很多在 MLLM 上加 reasoning supervision 的方法，迁移到 VLA 后并不能稳定提升机器人表现，甚至会伤害动作质量。作者把症结归因于语言推理和低层动作之间的接口没有真正对齐。

RoboAlign 的核心做法是先用零样本自然语言推理产生动作 token，再通过 RL 对这些推理进行校正，使语言侧的决策过程能够更可靠地映射到扩散式动作头。重点不是再堆 VQA 监督，而是把 reasoning 直接变成动作对齐机制。

这条路线命中仓库当前重点的 `VLA / embodied reasoning / test-time adaptation`。它展示了一种更系统的语言-动作桥接方案，且在 LIBERO、CALVIN 和 real-world 上都给出了明显增益，因此不只是 benchmark trick。

它暂时还不是更高一级，因为当前验证仍围绕特定 VLA 训练配方和 benchmark 体系展开。要成为更通用的范式，还需要在更广机器人形态、动作表示和长期部署 setting 上继续验证。