Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-09
arXiv: 2603.08122

收录解读

这篇论文解决的是一个很硬的具身智能问题：如何把 VLA 从低自由度、视觉主导的抓取，推进到真正依赖接触、力觉和手内操作的双臂灵巧操控。作者指出，直接把力觉和触觉拼接进预训练 VLA 往往会破坏已有视觉能力，而复杂手内操作的数据又很难靠人类纯遥操作高质量采集。

为此论文提出了两部分组合方案。第一部分是 IMCopilot，它既作为强化学习训练出的共享自主副驾驶，帮助人类采集复杂灵巧操作数据，又在推理时充当可调用的低层技能原语。第二部分是 MoDE-VLA，它通过残差注入把力觉和触觉作为接触时的校正信号加入预训练骨干，并在动作时间维度上引入 mixture-of-experts 路由，让不同物理阶段由不同专家处理。

它对仓库的意义在于，这不是单纯加模态或堆数据，而是提出了一个对高自由度接触操控很有启发的架构范式：用 RL 辅助人类采集示范，再把这些原子技能反向变成 VLA 可调用的低层能力，同时用残差式多模态融合避免预训练知识退化。对后续具身系统里‘规划层 + 低层技能 + 接触校正’的设计有直接参考价值。

它暂时还不到更高一级，因为绝对成功率仍不高，最复杂任务离稳定落地还有距离，而且系统高度依赖预先定义和训练好的原子技能，泛化到全新接触模式时的能力边界还不清楚。论文更像是在类人灵巧操作上打开了一条强路线，而不是已经给出了通用终局方案。

解读视频

B 站 YouTube

链接

论文链接