公共卫生与医疗运营

Bridging the interpretability gap for medical artificial intelligence models using class-association manifold learning

发表：2026-05-18 · 突破级

CAML 处理医疗 AI 的解释性缺口：局部解释难以揭示黑箱模型的全局决策逻辑，尤其难以区分个体背景和真正与诊断类别相关的模式。方法用 class-association manifold learning 把全局类别知识映射到低维空间，并生成对比样本和 topology map，让人可以沿地图理解模型决策规...

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

发表：2026-05-04 · 突破级

很多医疗 agent benchmark 只测静态问答、单步意图或者文本知识，离真实临床系统还差很远。PhysicianBench 过线的原因，是它把评测对象换成了真实 EHR 环境里的长链路 physician tasks，而不是抽象化 toy interaction。它的接口设计也很扎实：真实患者记录、标...

Mitigating algorithmic unfairness arising from forgetfulness of medical records in clinical artificial intelligence

发表：2026-05-04 · 突破级

这篇论文抓住了 clinical AI 一个非常现实、也非常容易被忽略的系统矛盾：患者要求删除病历时，模型执行 machine unlearning 可能会改变对不同亚群体的认识，从而破坏公平性。它真正贡献的是把 ‘right to be forgotten’ 和 ‘fairness’ 的冲突正式化。方法上...

Towards generalizable AI in medicine via Generalist-Specialist Collaboration

发表：2026-05-01 · 突破级

这篇论文的价值不在于又训练了一个更大的医疗模型，而在于给出了一个更耐用的部署接口：让 generalist foundation model 和 lightweight specialists 协同工作，而不是强迫单一模型同时兼顾全部泛化与全部精度。从本库角度看，真正重要的是它把‘generalize bro...

Merlin: a computed tomography vision–language foundation model and dataset

发表：2026-04-30 · 突破级

这篇 Nature 论文把 medical VLM 从 2D 图像和短报告推进到 3D abdominal CT 的 foundation model 工作流。 Merlin 使用 multistage pretraining，从 15,331 个 CT scans、超过 600 万图像、180 万诊断代码和...

Performance of a large language model on the reasoning tasks of a physician

发表：2026-04-30 · 突破级

这篇 Science 论文把 LLM 放到临床医师推理任务中评估，而不是只做医学问答或单点诊断 benchmark。研究覆盖多组挑战性临床案例，并与数百名医生基线比较；还包含急诊患者场景中的人类专家与 AI second opinion 对照。结果显示 LLM 在多个实验中超过医生基线，并表现出相对旧一代临...

3D foundation model for generalizable disease detection in head computed tomography

发表：2026-04-22 · 突破级

这篇论文解决的是医疗影像里一个很实际的瓶颈：高价值 3D CT 任务很多，但高质量标注极其稀缺，尤其是少见疾病更难做出可泛化模型。作者没有继续沿着“多做一点标注、多刷几个下游任务”的路径走，而是直接构建了头颅 CT 的 self-supervised foundation model。 FM-HCT 用 361...

Specialized foundation models for intelligent operating rooms

发表：2026-04-15 · 突破级

这篇 npj Digital Medicine 论文提出 ORQA，面向手术室这一安全关键、强多模态、强协作环境构建专用 foundation model。它不是普通临床文本问答，而是面向 operating room operations 的场景理解系统。 ORQA 统一视觉、音频和结构化数据，用于理解手术活...

EDSim: An Agentic Simulator for Emergency Department Operations

发表：2026-03-03 · 突破级

急诊科运营长期受拥堵、床位分配和人力调度约束影响。传统离散事件模拟或普通 agent-based simulation 能对齐宏观等待时间和吞吐量，但很难表达患者与医护之间的微观交互、临场沟通和状态依赖决策，而这些恰恰会改变瓶颈位置和流程效率。 EDSim 提出的是一种 agentic operations s...

Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals

发表：2026-02-24 · 突破级

问题与背景：心脏监测数据横跨医院 12-lead ECG、单导联 ECG、PPG 和消费级可穿戴设备，传统 one-modal-one-task 模型很难在不同设备、场景和输入组合之间稳定迁移。方法与新意：CSFM 使用 transformer 与 generative masked pretraining...