多模态基础模型
突破级
暂无讲解视频
收录解读
这篇工作切中的问题很明确:纯视觉的 Video-Action / VLA 路线在长时任务上已经有一定能力,但在接触丰富、力控制敏感的交互里,视觉 token 无法稳定表征关键的接触状态。作者因此把 tactile 视为世界动作模型的基础模态,而不是附属传感器。
方法上,VTAM 在预训练视频 transformer 上接入 tactile stream,用轻量化的 modality transfer finetuning 做跨模态对齐,并通过 tactile regularization loss 抑制视觉潜变量对动作模型的单边支配。它不要求 tactile-language 成对数据,也不要求单独的 tactile 预训练。
对仓库而言,这篇论文的价值在于它把 `video + tactile + action` 组织成一个可扩展的 embodied foundation-model 接口,清楚地说明了为什么复杂物理交互不能只靠视觉世界模型。这个接口层面的价值大于单个 manipulation 分数。
它还不是更高一级,因为当前证据主要在 contact-rich manipulation,虽然结果很强,但离更广通用机器人平台和长期多任务泛化还差一步。