VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-24
arXiv: 2603.23481

收录解读

这篇工作切中的问题很明确：纯视觉的 Video-Action / VLA 路线在长时任务上已经有一定能力，但在接触丰富、力控制敏感的交互里，视觉 token 无法稳定表征关键的接触状态。作者因此把 tactile 视为世界动作模型的基础模态，而不是附属传感器。

方法上，VTAM 在预训练视频 transformer 上接入 tactile stream，用轻量化的 modality transfer finetuning 做跨模态对齐，并通过 tactile regularization loss 抑制视觉潜变量对动作模型的单边支配。它不要求 tactile-language 成对数据，也不要求单独的 tactile 预训练。

对仓库而言，这篇论文的价值在于它把 `video + tactile + action` 组织成一个可扩展的 embodied foundation-model 接口，清楚地说明了为什么复杂物理交互不能只靠视觉世界模型。这个接口层面的价值大于单个 manipulation 分数。

它还不是更高一级，因为当前证据主要在 contact-rich manipulation，虽然结果很强，但离更广通用机器人平台和长期多任务泛化还差一步。

链接

论文链接