MolmoPoint: Better Pointing for VLMs with Grounding Tokens

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-18

收录解读

视觉语言模型里的 grounding 已经变成很多系统能力的基础层，但多数模型仍把 pointing 当作文本坐标生成问题来做。这种做法既难学，又会引入高 token 开销和明显的坐标表示误差，在 GUI 操作、视频跟踪和机器人交互里都容易成为瓶颈。

MolmoPoint 的核心改动是把 pointing 从坐标文本生成改成 grounding tokens 选择视觉 token。模型依次生成 patch、subpatch 和 location 三类特殊 token，直接在图像或视频 token 上做选择，并配合顺序化多点生成、相对位置编码和 no-more-points 类别，让 pointing 过程更接近模型原生的视觉选择而不是外部坐标回归。

这篇论文值得正式收录，因为它提供了一个可复用的多模态 pointing interface，而不是只在某个 GUI benchmark 上提分。同一套接口同时覆盖图像 pointing、GUI grounding、视频 pointing 和 tracking，并且对机器人抓取与视觉规划也有明显外溢，属于 multimodal grounding 层的耐用方法条目。

它暂时不再升一级，因为当前最强证据仍集中在 pointing 与 grounding 子任务。这还不是完整的 GUI automation 或 embodied agent 系统，更多是在为这些系统提供更稳的感知与定位模块，因此定位为 breakthrough 更合适。

链接

论文链接项目