CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-25
arXiv: 2603.24440

收录解读

computer-use agent 现在最缺的不是又一个 benchmark 分数，而是连续、高质量、带动作与推理痕迹的人类演示数据。现有公开资源大多停留在稀疏截图、短时交互或极少量视频，导致 agent 很难真正学到长程桌面工作流里的时序线索、光标运动细节和局部失败恢复。CUA-Suite 正面处理的就是这个基础设施缺口。

这篇工作的核心不是单一数据集，而是一整套面向 CUA 的视频演示生态。它以 VideoCUA 为中心，提供约一万条人类演示任务、覆盖 87 个应用、连续 30fps 屏幕录制、光标轨迹以及多层级 reasoning annotations，从而把 computer-use agent 的训练信号从稀疏状态截图提升到可学习连续交互过程。这个接口对 imitation、planning、verification 和 video-grounded action modeling 都是通用底座。

它值得正式收录，因为它补的是整个 computer-use 子方向最明确的瓶颈之一：公开视频演示规模不够，导致系统只能在截图级观测上打转。相比单纯再做一个 agent，CUA-Suite 这类数据与评测底座更可能成为长期引用点，也和仓库已经在收的 GUI / computer-use 主线高度一致。

它目前仍是 breakthrough，而不是更高一级，因为它的长期影响还取决于社区是否真的围绕这套 video-first 数据接口收敛，以及数据质量、标注一致性和跨平台泛化是否经得起后续验证。它已经非常像基础设施，但距离成为该方向默认基座还需要时间。

链接

论文链接