智能体与自主科学
突破级
暂无讲解视频
收录解读
问题与背景:agent 评测长期被少数可公开复现的环境限制,难覆盖真实职业任务。OccuBench 把评测对象扩展到急诊分诊、核电安全监控、海关进口处理等 65 个专业域,并把任务完成和环境鲁棒性放在同一套协议里。
方法与新意:论文用 Language World Models 生成领域工具响应与环境反馈,并通过多智能体合成管线保证实例可解、难度可校准、文档 grounding 多样。它不是静态问答集,而是面向职业 workflow 的可交互模拟评测。
收录意义:这篇值得进入 agent/evaluation 主线,因为它提出了一个可复用的职业任务评测接口:同一 agent 在不同专业环境、不同故障注入条件下的能力画像。对企业级 agent、workflow agent 和高风险场景评估都有方法参考价值。
局限:Language World Model 仍是模拟环境,真实职业系统中的工具副作用、权限约束和组织流程很难完全复现;因此当前按突破性 benchmark 收录,而不是更高等级。