PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

公共卫生与医疗运营突破级暂无讲解视频

收录解读

很多医疗 agent benchmark 只测静态问答、单步意图或者文本知识，离真实临床系统还差很远。PhysicianBench 过线的原因，是它把评测对象换成了真实 EHR 环境里的长链路 physician tasks，而不是抽象化 toy interaction。

它的接口设计也很扎实：真实患者记录、标准 EHR API、跨 21 个专科、平均 27 次工具调用，以及分阶段 checkpoint 验证。这使它更像 execution-grounded workflow benchmark，而不是又一个医疗问答集。

它值得正式收录，因为高风险 agent 的关键不是‘会不会答’，而是‘能不能在真实系统里可靠检索、推理、执行和记录’。这篇工作把这个问题具体化了，对未来 clinical agent 和一般 enterprise agent benchmark 都有参考价值。

它没有更高，是因为当前场景仍局限在医疗 EHR 工作流。尽管执行式评测接口很耐用，但它还不是跨所有高风险 agent 系统的统一基准。