Do Phone-Use Agents Respect Your Privacy?

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00986

收录解读

mobile phone-use agents 的任务成功率越来越高，但它们是否尊重用户隐私一直很难严格回答。问题不只是模型会不会偷看隐私，而是缺少可操作的 privacy contract 和可验证的观测接口，普通 app 也不会直接告诉你 agent 在哪些表单里多填了什么、何时过度申请权限。MyPhoneBench 正是在把这个模糊问题变成可测问题。

论文提出 MyPhoneBench，把 privacy-respecting phone use 操作化为 permissioned access、minimal disclosure 和 user-controlled memory，并用最小隐私契约 `iMy`、instrumented mock apps 和 rule-based auditing 让不必要权限申请、欺骗性再披露、过度表单填写都可观测、可复现。基于 10 个 mobile apps、300 个任务和多个 frontier models 的评测，作者显示任务成功、隐私合规完成和后续会话中对保存偏好的使用其实是三种不同能力。

这篇工作值得收录，因为 phone-use agents 是 computer-use agents 的高风险变体，而这篇论文第一次把其 privacy behavior 明确做成 benchmark 与审计接口。对于 agent evaluation、computer-use safety 和 deployment readiness，这种 success 与 privacy jointly evaluated 的框架有明显长期价值，而不只是一次安全吐槽。

它没有升到更高一级，是因为当前仍主要围绕作者构建的 mock apps 与任务设置验证，外部生态和真实部署场景中的采用还需要时间。它是很强的评测与安全条目，但还没到更高层级。

链接

论文链接