MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-06-01
arXiv: 2606.02470

核心要点

问题/背景: MCP 正在成为 LLM 连接外部工具和个人数据的标准接口，但现有 agent benchmark 很少覆盖个人账号、局部数据库和真实应用语境。
方法/机制: MCP-Persona 面向 Reddit、小红书、飞书、Slack 等个人/协作应用构造环境模拟，评测 agent 在 personalized tool use 中的能力缺口。
结果/证据: 它值得收录，因为个人工具调用是 agent 落地的核心场景，MCP-Persona 提供了针对 MCP 生态的可复用评测接口。
收录价值: 按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

完整收录解读

MCP 正在成为 LLM 连接外部工具和个人数据的标准接口，但现有 agent benchmark 很少覆盖个人账号、局部数据库和真实应用语境。

MCP-Persona 面向 Reddit、小红书、飞书、Slack 等个人/协作应用构造环境模拟，评测 agent 在 personalized tool use 中的能力缺口。

它值得收录，因为个人工具调用是 agent 落地的核心场景，MCP-Persona 提供了针对 MCP 生态的可复用评测接口。

按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

MCP-Persona 评估 LLM 代理在个性化 MCP 风格工具和模拟的真实世界个人应用上的表现，包括社交和企业协作环境。

英文原文

MCP-Persona benchmarks LLM agents on personalized MCP-style tools and simulated real-world personal applications, including social and enterprise collaboration contexts.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接