MMSkills: Towards Multimodal Skills for General Visual Agents

智能体与自主科学突破级暂无讲解视频

收录解读

MMSkills 指出 visual agents 的技能不能只是文本 prompt 或代码片段；视觉操作依赖状态识别、视觉证据、进度/失败判断和下一步决策。

论文把这种能力形式化为 multimodal procedural knowledge，并提出包含 textual procedure、runtime state cards 和 multi-view keyframes 的技能包。

它值得正式收录，因为 agent skill systems 正在从文本/工具扩展到多模态交互；MMSkills 给出了视觉 agent 可复用技能的表示和生成方式。

它没有更高，是因为技能库构建、检索和过度依赖参考截图的问题仍需在真实 GUI/机器人任务中长期验证。