EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-13
arXiv: 2603.13594

收录解读

企业环境里的 agent 评测长期偏弱，一个根本问题是现有 benchmark 很少真正覆盖持久状态、权限约束、多工具调用和长程计划这些现实企业场景最难的部分。EnterpriseOps-Gym 正面把这个缺口做成了环境级 benchmark。

论文构建了一个带有 164 张数据库表、512 个工具和 1150 个专家任务的容器化 sandbox，覆盖客服、人力、IT 等关键业务垂类。更重要的是，它不仅测任务成功率，还显式测 infeasible task refusal、planning consistency 和 side effects，把“企业 agent 可部署性”从演示层推进到了更接近真实 operating constraint 的评测层。

这篇论文值得正式收录，因为它重新定义了 enterprise agent 应该怎样被测。很多 agent benchmark 只测静态答题或轻量工具调用，而这篇工作把 persistent state、policy friction 和 long-horizon planning 合在一起，具有很强的评测外溢价值。

它暂时不是更高一级，因为目前核心贡献仍然是 benchmark 和诊断框架，而不是新的通用 agent 训练机制。它非常重要，但更像一篇高质量评测基础设施论文，而不是直接改写 agent 方法主线的论文。

链接

论文链接