智能体与自主科学
突破级
暂无讲解视频
收录解读
MMSkills 指出 visual agents 的技能不能只是文本 prompt 或代码片段;视觉操作依赖状态识别、视觉证据、进度/失败判断和下一步决策。
论文把这种能力形式化为 multimodal procedural knowledge,并提出包含 textual procedure、runtime state cards 和 multi-view keyframes 的技能包。
它值得正式收录,因为 agent skill systems 正在从文本/工具扩展到多模态交互;MMSkills 给出了视觉 agent 可复用技能的表示和生成方式。
它没有更高,是因为技能库构建、检索和过度依赖参考截图的问题仍需在真实 GUI/机器人任务中长期验证。