公共卫生与医疗运营 突破级 暂无讲解视频
发表时间
2025-11-06
DOI
10.1038/s41467-025-64769-1

收录解读

问题与背景:推理型 LLM 在医学中很有潜力,但现有评测常只看最终答案,缺乏对检查建议、诊断决策和治疗规划全过程推理质量的结构化评估。

方法与机制:MedR-Bench 收集 1453 个结构化患者病例,覆盖 13 个系统和 10 个专科,并给出来自临床病例报告的参考推理。论文还提出 Reasoning Evaluator,从效率、事实准确性和完整性评估模型书面推理。

为什么重要:这不是普通医疗 QA,而是面向临床推理流程的评测接口,能帮助区分模型会不会推、在哪里推错、是否只是补全表面答案。对医疗 agent 和临床 AI 安全评估有复用价值。

局限:自动推理评估本身可能有偏差,病例报告不等同于真实临床工作流;因此作为突破级 benchmark 收录。

链接