强化学习 突破级 有讲解视频
发表时间
2026-03-19

收录解读

这篇工作聚焦于机器人操作中最难、也最容易被通用模型忽视的一类问题:关键接触瞬间的亚毫米级精度操作。对于许多真实任务,广义 VLA 模型已经能完成大部分宏观步骤,但最后毫米级的插接、对准和施力阶段仍然是失败瓶颈。作者因此不再追求整任务端到端大规模改进,而是专门面向这些 critical phases 做高效在线强化学习。

核心方法是 RLT,也就是 RL Tokens。作者先让预训练 VLA 产出一个紧凑的 RL token,作为其内部状态的压缩接口,再用这个 token 驱动一个很小的 actor 和 critic 做高频在线 RL 更新,而无需微调整个 VLA。这样一来,在线策略既能利用大模型内部表征,又能在机器人上以很高频率快速学习;同时策略是对 VLA 原有 action chunk 的编辑,而不是从零接管动作空间。

这篇工作值得正式收录,因为它给出了一种很清楚的 robot foundation model adaptation pattern:冻结大模型主体,通过紧凑接口连接小型在线 RL 模块,在极少真实数据下快速提升最关键的精密操作阶段。官方结果也足够硬:四个高精度任务里关键阶段效率最高提升三倍,最少十五分钟真实数据即可得到显著改进,在以太网插接上还超过了人类遥操作速度。

它目前适合定为 breakthrough,而不是更高一级。原因是这还是一份公司技术报告,任务范围集中在精密装配类 manipulation 上。方法路线很强,但是否能成为更广泛机器人在线适应的默认接口,还需要更多社区验证和不同平台复现。

解读视频

链接