收录解读
mobile phone-use agents 的任务成功率越来越高,但它们是否尊重用户隐私一直很难严格回答。问题不只是模型会不会偷看隐私,而是缺少可操作的 privacy contract 和可验证的观测接口,普通 app 也不会直接告诉你 agent 在哪些表单里多填了什么、何时过度申请权限。MyPhoneBench 正是在把这个模糊问题变成可测问题。
论文提出 MyPhoneBench,把 privacy-respecting phone use 操作化为 permissioned access、minimal disclosure 和 user-controlled memory,并用最小隐私契约 `iMy`、instrumented mock apps 和 rule-based auditing 让不必要权限申请、欺骗性再披露、过度表单填写都可观测、可复现。基于 10 个 mobile apps、300 个任务和多个 frontier models 的评测,作者显示任务成功、隐私合规完成和后续会话中对保存偏好的使用其实是三种不同能力。
这篇工作值得收录,因为 phone-use agents 是 computer-use agents 的高风险变体,而这篇论文第一次把其 privacy behavior 明确做成 benchmark 与审计接口。对于 agent evaluation、computer-use safety 和 deployment readiness,这种 success 与 privacy jointly evaluated 的框架有明显长期价值,而不只是一次安全吐槽。
它没有升到更高一级,是因为当前仍主要围绕作者构建的 mock apps 与任务设置验证,外部生态和真实部署场景中的采用还需要时间。它是很强的评测与安全条目,但还没到更高层级。