多模态基础模型
突破级
暂无讲解视频
收录解读
VASA 面向开放 ad-hoc segmentation:目标概念可能需要由部分、关系、排除条件和集合组合出来,而不是一个已学过的文本 grounding。
系统把 VLM agent、segmentation foundation model、persistent working mask 和视觉操作 workflow 结合起来,规划、调用、检查、编辑并从失败中恢复。
它值得正式收录,因为它把视觉 agent 从 prompt wrapping 推进到带工作记忆、视觉例程和错误恢复的 multimodal construction workflow。
它没有更高,是因为目前主要验证在 PARS 和 RefCOCOm,真实开放场景、视频和交互式编辑还需扩展。