智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-13
arXiv
2603.13594

收录解读

企业环境里的 agent 评测长期偏弱,一个根本问题是现有 benchmark 很少真正覆盖持久状态、权限约束、多工具调用和长程计划这些现实企业场景最难的部分。EnterpriseOps-Gym 正面把这个缺口做成了环境级 benchmark。

论文构建了一个带有 164 张数据库表、512 个工具和 1150 个专家任务的容器化 sandbox,覆盖客服、人力、IT 等关键业务垂类。更重要的是,它不仅测任务成功率,还显式测 infeasible task refusal、planning consistency 和 side effects,把“企业 agent 可部署性”从演示层推进到了更接近真实 operating constraint 的评测层。

这篇论文值得正式收录,因为它重新定义了 enterprise agent 应该怎样被测。很多 agent benchmark 只测静态答题或轻量工具调用,而这篇工作把 persistent state、policy friction 和 long-horizon planning 合在一起,具有很强的评测外溢价值。

它暂时不是更高一级,因为目前核心贡献仍然是 benchmark 和诊断框架,而不是新的通用 agent 训练机制。它非常重要,但更像一篇高质量评测基础设施论文,而不是直接改写 agent 方法主线的论文。

链接