Precise Manipulation with Efficient Online RL

强化学习突破级有讲解视频

发表时间: 2026-03-19

收录解读

这篇工作聚焦于机器人操作中最难、也最容易被通用模型忽视的一类问题：关键接触瞬间的亚毫米级精度操作。对于许多真实任务，广义 VLA 模型已经能完成大部分宏观步骤，但最后毫米级的插接、对准和施力阶段仍然是失败瓶颈。作者因此不再追求整任务端到端大规模改进，而是专门面向这些 critical phases 做高效在线强化学习。

核心方法是 RLT，也就是 RL Tokens。作者先让预训练 VLA 产出一个紧凑的 RL token，作为其内部状态的压缩接口，再用这个 token 驱动一个很小的 actor 和 critic 做高频在线 RL 更新，而无需微调整个 VLA。这样一来，在线策略既能利用大模型内部表征，又能在机器人上以很高频率快速学习；同时策略是对 VLA 原有 action chunk 的编辑，而不是从零接管动作空间。

这篇工作值得正式收录，因为它给出了一种很清楚的 robot foundation model adaptation pattern：冻结大模型主体，通过紧凑接口连接小型在线 RL 模块，在极少真实数据下快速提升最关键的精密操作阶段。官方结果也足够硬：四个高精度任务里关键阶段效率最高提升三倍，最少十五分钟真实数据即可得到显著改进，在以太网插接上还超过了人类遥操作速度。

它目前适合定为 breakthrough，而不是更高一级。原因是这还是一份公司技术报告，任务范围集中在精密装配类 manipulation 上。方法路线很强，但是否能成为更广泛机器人在线适应的默认接口，还需要更多社区验证和不同平台复现。

解读视频

B 站 YouTube

链接

论文链接项目