智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文处理的是 mobile agent 从明确指令执行走向个人助理时的评测断层。现有 Android/GUI benchmark 多测试 agent 能否按清楚指令点击和跨 app 完成任务,但真实个人助理还必须从行为历史推断偏好、在信息不足时主动澄清、判断何时介入、何时征求同意、何时保持沉默。
KnowU-Bench 在可复现 Android emulator 中构建 42 个通用 GUI 任务、86 个个性化任务和 64 个主动服务任务。它不直接暴露用户 profile,而只给行为日志,并用基于 profile 的 LLM user simulator 支持多轮偏好询问和 consent handling;评估则结合规则验证和 LLM-as-a-judge。
它值得收录,因为它把 personalized/proactive agent 的评测目标从静态意图恢复推进到在线交互式能力链:偏好获取、GUI 执行、主动性校准、拒绝后的克制。实验显示强模型在明确任务上表现好,但在 vague personalized/proactive 条件下大幅跌落,说明当前瓶颈不只是 GUI navigation,而是个人化推理和介入校准。
它不是更高一级,因为 user simulator 和 LLM judge 仍会影响结论,任务规模还处在早期 benchmark 水平;真实用户长期偏好、隐私边界和跨设备多环境中的主动行为风险尚未完全覆盖。