OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

智能体与自主科学突破级暂无讲解视频

收录解读

问题与背景：agent 评测长期被少数可公开复现的环境限制，难覆盖真实职业任务。OccuBench 把评测对象扩展到急诊分诊、核电安全监控、海关进口处理等 65 个专业域，并把任务完成和环境鲁棒性放在同一套协议里。

方法与新意：论文用 Language World Models 生成领域工具响应与环境反馈，并通过多智能体合成管线保证实例可解、难度可校准、文档 grounding 多样。它不是静态问答集，而是面向职业 workflow 的可交互模拟评测。

收录意义：这篇值得进入 agent/evaluation 主线，因为它提出了一个可复用的职业任务评测接口：同一 agent 在不同专业环境、不同故障注入条件下的能力画像。对企业级 agent、workflow agent 和高风险场景评估都有方法参考价值。

局限：Language World Model 仍是模拟环境，真实职业系统中的工具副作用、权限约束和组织流程很难完全复现；因此当前按突破性 benchmark 收录，而不是更高等级。