TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-10
arXiv: 2603.09971

收录解读

这篇论文正面回应了一个越来越重要的问题：端到端 VLA 是否真的是机器人操作的默认答案。作者提出 TiPToP，把预训练视觉基础模型、开放词汇语义理解和现有任务与运动规划器组合起来，直接从 RGB 图像和自然语言指令求解多步操作任务，而且不需要任何特定机器人的训练数据。

技术上，TiPToP 采取的是高度模块化路线：单视角感知负责构建对象级 3D 语义场景，Gemini-1.5 等模型负责语义和开放词汇理解，FoundationStereo、SAM-2、M2T2 等模型负责深度、分割和抓取候选，再由 cuTAMP 在 GPU 上做任务与运动联合规划。这个系统的价值不在于某个单模块，而在于把‘大模型感知 + 经典规划’拼成了一个可落地、可部署、可诊断的整体。

它在仓库里的意义很明确：这是一篇对具身智能系统形态有外溢价值的论文。相比黑盒 VLA，它证明了模块化规划系统在需要语义推理、障碍处理和多步逻辑的任务上可以匹敌甚至超过重度微调的端到端模型，同时还能提供更强的故障归因能力和更快的跨机器人迁移部署。

它没有更高，是因为当前执行仍以开环为主，抓取失败和几何估计误差仍是主要瓶颈，说明这条路线在高层推理上很强，但在闭环反应和复杂接触操作上还不完整。它更像对 VLA 范式的有力校正，而不是完全替代闭环学习控制的终局架构。

解读视频

B 站 YouTube

链接

论文链接