KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-09
arXiv: 2604.08455

收录解读

这篇论文处理的是 mobile agent 从明确指令执行走向个人助理时的评测断层。现有 Android/GUI benchmark 多测试 agent 能否按清楚指令点击和跨 app 完成任务，但真实个人助理还必须从行为历史推断偏好、在信息不足时主动澄清、判断何时介入、何时征求同意、何时保持沉默。

KnowU-Bench 在可复现 Android emulator 中构建 42 个通用 GUI 任务、86 个个性化任务和 64 个主动服务任务。它不直接暴露用户 profile，而只给行为日志，并用基于 profile 的 LLM user simulator 支持多轮偏好询问和 consent handling；评估则结合规则验证和 LLM-as-a-judge。

它值得收录，因为它把 personalized/proactive agent 的评测目标从静态意图恢复推进到在线交互式能力链：偏好获取、GUI 执行、主动性校准、拒绝后的克制。实验显示强模型在明确任务上表现好，但在 vague personalized/proactive 条件下大幅跌落，说明当前瓶颈不只是 GUI navigation，而是个人化推理和介入校准。

它不是更高一级，因为 user simulator 和 LLM judge 仍会影响结论，任务规模还处在早期 benchmark 水平；真实用户长期偏好、隐私边界和跨设备多环境中的主动行为风险尚未完全覆盖。

链接

论文链接