Vision Harnessing Agent for Open Ad-hoc Segmentation

多模态基础模型突破级暂无讲解视频

收录解读

VASA 面向开放 ad-hoc segmentation：目标概念可能需要由部分、关系、排除条件和集合组合出来，而不是一个已学过的文本 grounding。

系统把 VLM agent、segmentation foundation model、persistent working mask 和视觉操作 workflow 结合起来，规划、调用、检查、编辑并从失败中恢复。

它值得正式收录，因为它把视觉 agent 从 prompt wrapping 推进到带工作记忆、视觉例程和错误恢复的 multimodal construction workflow。

它没有更高，是因为目前主要验证在 PARS 和 RefCOCOm，真实开放场景、视频和交互式编辑还需扩展。