OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-09
arXiv: 2603.07978

收录解读

这篇工作针对 computer-use agents 在复杂专业软件环境里的核心短板：虽然通用桌面代理已经能完成一些基础 GUI 操作，但在专业任务上仍然明显弱于人类专家，表现为探索低效、对未见界面迁移差、以及对细粒度动作序列掌握不足。论文先提出 OSExpert-Eval，用来把这类“专业技能差距”显式化，而不是继续停留在通用桌面 benchmark 的表面通过率上。

方法上，OSExpert 把技能获取做成一个先探索、再组合、再执行的闭环。它用 GUI-DFS 系统性探索环境中的 unit functions，自动验证可用功能，并从中沉淀 action primitives 与 skill set；然后利用这些原子技能的组合关系自构课程，学习更复杂的 composite tasks。这个路线的关键不只是多跑几次，而是把“探索得到的可操作界面知识”显式转成可复用技能资产。

它符合本仓库对 agent capability acquisition 的高优先级方向，因为贡献不只是一个新 benchmark，而是把 computer-use agent 的能力扩展从 prompt 试错推进到技能发现与技能复用工作流。对 agent systems、GUI agents、长期能力积累和职业化软件代理，这都是可复用的模式。

这篇论文还没有到 paradigm 或 disruptive。原因是它目前仍聚焦 computer-use 这一子场景，技能发现和课程构造也主要建立在 GUI 环境的可探索性上，是否能稳定迁移到更开放、更多工具异构的 agent 环境，还需要更广验证。

链接

论文链接