多模态基础模型 突破级 暂无讲解视频
发表时间
2026-03-18

收录解读

视觉语言模型里的 grounding 已经变成很多系统能力的基础层,但多数模型仍把 pointing 当作文本坐标生成问题来做。这种做法既难学,又会引入高 token 开销和明显的坐标表示误差,在 GUI 操作、视频跟踪和机器人交互里都容易成为瓶颈。

MolmoPoint 的核心改动是把 pointing 从坐标文本生成改成 grounding tokens 选择视觉 token。模型依次生成 patch、subpatch 和 location 三类特殊 token,直接在图像或视频 token 上做选择,并配合顺序化多点生成、相对位置编码和 no-more-points 类别,让 pointing 过程更接近模型原生的视觉选择而不是外部坐标回归。

这篇论文值得正式收录,因为它提供了一个可复用的多模态 pointing interface,而不是只在某个 GUI benchmark 上提分。同一套接口同时覆盖图像 pointing、GUI grounding、视频 pointing 和 tracking,并且对机器人抓取与视觉规划也有明显外溢,属于 multimodal grounding 层的耐用方法条目。

它暂时不再升一级,因为当前最强证据仍集中在 pointing 与 grounding 子任务。这还不是完整的 GUI automation 或 embodied agent 系统,更多是在为这些系统提供更稳的感知与定位模块,因此定位为 breakthrough 更合适。

链接