公共卫生与医疗运营
突破级
暂无讲解视频
收录解读
很多医疗 agent benchmark 只测静态问答、单步意图或者文本知识,离真实临床系统还差很远。PhysicianBench 过线的原因,是它把评测对象换成了真实 EHR 环境里的长链路 physician tasks,而不是抽象化 toy interaction。
它的接口设计也很扎实:真实患者记录、标准 EHR API、跨 21 个专科、平均 27 次工具调用,以及分阶段 checkpoint 验证。这使它更像 execution-grounded workflow benchmark,而不是又一个医疗问答集。
它值得正式收录,因为高风险 agent 的关键不是‘会不会答’,而是‘能不能在真实系统里可靠检索、推理、执行和记录’。这篇工作把这个问题具体化了,对未来 clinical agent 和一般 enterprise agent benchmark 都有参考价值。
它没有更高,是因为当前场景仍局限在医疗 EHR 工作流。尽管执行式评测接口很耐用,但它还不是跨所有高风险 agent 系统的统一基准。