Computer-Use Agents as Judges for Generative User Interface

智能体与自主科学突破级有讲解视频

发表时间: 2025-11-19
arXiv: 2511.15567

收录解读

问题与背景：现有 GUI 基本都为人类设计，强调视觉美观和传统可用性，而 computer-use agents 被迫沿用这些人类优先界面完成任务，效率和稳定性都受限。与此同时，代码模型已经足够强，能够自动生成和修改网站。这篇论文讨论的核心问题因此不是“agent 如何更好地使用人类 GUI”，而是“能否让 agent 反过来充当裁判和反馈源，帮助生成更适合 agent 执行的界面”。

方法/新意：作者提出 AUI-Gym，覆盖 52 个应用和 1560 个任务，用程序化 verifier 保证任务可执行性；在此基础上设计 Coder-CUA 协作框架，由 Coder 生成与修改界面，由 Computer-Use Agent 作为 Judge 评估任务可解性和导航成功率，并通过 CUA Dashboard 将多步执行历史压缩成可供迭代设计的摘要反馈。

意义/放在仓库中的位置：这篇工作很适合放在 agent / GUI / computer-use 主线。它的长期价值不只在 benchmark，而在于把“agent 既是使用者也是界面优化反馈源”建立成一条工作流，推动 UI 设计从 human-centric 走向 agent-native。这对 GUI benchmark、数字环境自动化、代码生成和 agent infrastructure 都有明显方法外溢。

局限/为何不再升一级：当前证据仍主要集中在 web GUI 和自动设计循环，离更普遍的操作系统级或跨模态界面设计范式还有距离。它是很强的方向性工作，但是否会重排更广泛的人机界面设计仍需更多验证。

解读视频

B 站 YouTube

链接

论文链接